摘刁石3七 随着Intemet的大规模普及和企业信息化程度的提高,无结构(如HTML和纯文本文 件)或半结构(如XML数据)化的文本数据正在以惊人的速度增长,文本数据的管理和分 析就变得空前重要。聚类技术作为文本信息挖掘技术中的核心技术之一,其目标是将文 档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相 似度尽可能的小。 自20世纪50年代以来,人们提出了多种聚类算法,大致可分为基于划分和基于层 次的两种。在基于划分的聚类算法中,最著名的是K一MeanS算法。自 1967年由MacQueen 首次发表后,目前已经成为数理统计、模式识别、机器学习和数据挖掘等领域应用最