数据可分为两类:结构化数据,具有固定格式或有限长度,如数据库、元数据等;非结构化数据,长度不定或格式不固定,如邮件、Word文档等。对结构化数据的全文搜索相对简单,使用SQL语句即可。对于非结构化数据,有两种常见方法:顺序扫描法和全文检索。顺序扫描法速度较慢,需逐个文档扫描,逐个匹配字符串。而全文检索则先提取部分信息,重新组织成具有一定结构的数据,再进行搜索,速度相对较快。这部分重新组织的信息称为索引。