利用Python编程语言,对文档进行分词、去除停用词和标点符号等处理,生成文档的词典,并根据词典和文档内容生成词项的倒排记录表,以实现文档集的短语查询。用户输入搜索关键字后,系统将对文档进行余弦相似度计算,并根据相似度从高到低的顺序进行显示,同时支持查询扩展功能,以更准确地满足用户需求。