wikiforia:Wikipedia转储的实用程序库 源码
维基百科 它是什么? 它是用于解析Wikipedia XML转储并将其转换为纯文本以供其他工具使用的库和工具。 为什么要使用它? 在我的笔记本电脑上(4个物理核心,8个逻辑线程,2.3 Ghz Haswell Core i7)在主观上产生良好的结果并且相当快,2014-08-18瑞典维基百科转储的平均速度为6000页/秒或10分钟。 您的结果当然会有所不同。 如何使用? 下载多流Wikipedia bzip2转储。 它由两个文件组成:一个索引和一个带页面的文件。 对于瑞典维基百科转储2014-08-18,它具有以下文件名: svwiki-20140818-pages-articles
文件列表
wikiforia:Wikipedia转储的实用程序库
(预估有个358文件)
wikiforia.iml
3KB
wikiforia-1.2.1.jar
1.36MB
log4j-1.2.14.jar
359KB
swc-parser-lazy-2.0.0.jar
493KB
commons-collections-3.2.1.jar
562KB
jaxb-impl-2.2.5.jar
1.05MB
ptk-common-2.0.0.jar
135KB
log4j-api-2.1.jar
130KB
junit-3.8.1.jar
118KB
jsoup-1.6.3.jar
270KB
暂无评论