维基百科中文语料(已分词)
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。
共包含3273626个段落的文本(一个段落包含了多个语句)。
处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
用户评论
推荐下载
-
linux百科
linux介绍linux百科
13 2020-09-11 -
urllib和BeautifulSoup爬取维基百科的词条简单实例
主要介绍了urllib和BeautifulSoup爬取维基百科的词条简单实例,具有一定借鉴价值,需要的朋友可以参考下
18 2020-09-29 -
论文研究基于维基百科的主题特征扩展研究.pdf
基于维基百科的主题特征扩展研究,曾庆旺,常晓林,文本自动分类是自然语言处理中一个重要的研究方向,其在数据挖掘与信息检索领域中扮演着重要的角色。针对传统向量空间模型特征空
17 2020-07-17 -
论文研究基于维基百科的领域实体发现研究.pdf
提出一种基于维基百科的领域实体发现方法,该方法将构成领域实体的典型字或词作为种子元素,利用少量种子元素作为实体发现的初始知识,有效地克服了传统方法在获取种子词条时过分依赖领域专家的局限,同时还利用维基
11 2020-07-17 -
维基百科跨平台web app客户端源代码
维基百科跨平台web app客户端源代码,编译后可以在iphone, android, symbian等平台上使用。
59 2019-03-30 -
Python学习教程如何在维基百科上生成词云
本教程将教你如何通过在维基百科上搜索相关文章并生成词云的方式来提高Python学习效率。你需要运行pip install requirements.txt来安装必要的模块。然后输入相应的Python脚
11 2023-06-04 -
维基百科16S_核糖体RNA.pdf
维基百科关于16S RNA的中文解释,因维基百科被和谐,在此分享。
0 2021-03-31 -
Hallepedia哈雷贝里维基百科HallepediaHalle Berry for Wikipedia crx插件
使(几乎)每个维基百科有关哈莉·贝瑞的文章。 Hallepedia将Wikipedia上有关无聊的非哈莉·贝瑞的东西的文章变成了有关哈莉·贝瑞的令人兴奋和性感的文章。 例如,您知道哈莉·贝瑞(Hall
6 2021-04-04 -
Python程序生成维基百科类别树并导出邻接表示
维基百科-类别树这是一个Python程序,它将生成以给定类别为根的类别树。要求维基工具用法:python categoryTree.py category_name depth output_file
0 2024-10-26 -
dream_search综合百度谷歌必应360搜狗维基百科和百度百科搜索的Chrome扩展源码
梦想综合搜索(Chrome和Firefox扩展) 一款简洁的综合搜索扩展,可自定义快捷搜索和搜索按钮。 功能介绍 1,在地址栏旁添加了功能图标,点击图标可展示综合搜索窗口。 2,浏览网页时,选择您想搜
9 2021-05-10
暂无评论