Scikit-learn中有三个主要的自带数据集:digits、iris和wine。这些数据集十分适合数据挖掘和机器学习上手入门,其中digits数据集主要用于数字识别、iris数据集主要用于分类问题和wine数据集主要用于回归问题。此外,还有一些额外的工具函数可以用来生成指定类型的随机数据集或在线下载更多数据集,如sklearn.datasets.make_和sklearn.datasets.fetch_mldata等。无论何种方式获取数据集, sklearn.datasets.load_svmlight_file函数可以处理svmlight和libsvm格式的数据集。