Text Mining (1) 文本本来是给人读的,不是计算机 大多数信息以文本形式存储 100 times as much online text as online DBs HTML网页是带有结构标记的文本(带来机会和挑战) 数据挖掘操作的是数据表 (i.e. numbers, fixed fields, adherence to data models).