在这个项目中,我们使用如下讨论的方法实现了基于文本的搜索引擎

1.) 使用Apache lucene库索引了超过25,000个网页。

2.) 基于词频逆文档频率的文本搜索。

3.) 实施向量空间模型(使用词频和逆文档频率权重)来对网页进行排名。

4.) 使用邻接矩阵的编码权限/集线器计算机制并返回前N个权限和前N个集线器。

5.) 在Java中设计了PageRank算法以返回前N个网页。

6.) 在Java中编程K-means聚类以生成相关网页的聚类。

7.) 从前“N”个网页中提取代码段和标题以将它们显示给用户,以便用户可以选择与其查询更相关的网页。

8.) 编码和应用标量聚类,以便用户在输入查询词时可以获得相关建议。

并且,在实现上述算法之后,我们使用不同算法的不同输入数据集分析了结果。各种算法的分析请参考《基于文