Rank-BM25:两行搜索引擎 一组算法,用于查询一组文档并返回与查询最相关的文档。 您可能已经猜到,这些算法的最常见用例是创建搜索引擎。 到目前为止,已实现的算法是: 霍加api BM25 BM25L BM25 + BM25-Adpt BM25T 这些算法均取自,它对每种方法进行了很好的概述,并对它们进行了基准测试。 一个不错的选择是,他们比较了不同类型的预处理,例如词干提取与禁止词干提取,是否停用停用词等。如果您是该主题的新手,那就请读一下。 安装 安装此软件包的最简单方法是通过pip ,使用 pip install rank_bm25 如果要确保获得最新版本,可以使用