维基百科类别图加载器文章介绍了自动将维基百科文章分配给宏类别的算法实现。该算法首先在Neo4j嵌入式实例中加载维基百科的类别图,然后计算每个类别与一组选定类别的距离。以下是该过程的主要步骤:
-
从维基媒体期刊数据库导出文件category.sql并加载。
-
为每个类别创建具有ID和名称属性的节点。
-
加载文件categorylinks.sql以在类别和文章之间创建边,并即时创建文章节点。
-
使用论文中解释的算法计算与所选类别的距离,并根据行进方向为边设置不同的成本。
该程序可用于任何维基百科版本,对于en.wikipedia,程序在作者的笔记本电脑上运行约20小时,并生成了一个15GB的图形数据库实例,其中包括Lucene索引。
暂无评论