Lucene 原理与代码分析系列文章已经基本告一段落,可能问题篇还会有新的更新。 完整版pdf可由以下链接下载。 Lucene 原理与代码分析完整版 目录如下: 目录 目录 第一篇:原理篇 第一章:全文检索的基本原理 一、总论 二、索引里面究竟存些什么 三、如何创建索引 第一步:一些要索引的原文档(Document)。 第二步:将原文档传给分次组件(Tokenizer)。 第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)。 第四步:将得到的词(Term)传给索引组件(Indexer)。 1. 利用得到的词(Term)创建