聚类分析常用数据集三例

探索聚类算法时,选择合适的数据集至关重要。以下列举三个常用的数据集,可用于测试和评估聚类模型的性能:

1. Iris 数据集

Iris 数据集包含 150 个样本,涵盖三种鸢尾花类别:山鸢尾、变色鸢尾和维吉尼亚鸢尾。每个样本包含四个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。该数据集结构简单,适用于初学者理解和实践聚类算法。

2. Wine 数据集

Wine 数据集包含 178 个样本,记录了三种不同产地的葡萄酒的化学成分。每个样本包含 13 个特征,例如酒精含量、苹果酸含量等。该数据集适合探索特征对聚类结果的影响,以及不同聚类算法的性能差异。

3. MNIST 数据集

MNIST 数据集包含 70,000 张手写数字图片,每个样本为 28x28 像素的灰度图像。该数据集广泛应用于图像识别和机器学习领域,也适合测试聚类算法在高维数据上的表现。