如果您正在寻找一个流行的大型文本语料库,BookCorpus是一个很好的选择。它适合在无人监督下学习句子的编码/解码器,并包含从smashwords等来源获取的大量文本数据。虽然BookCorpus目前已不再更新,但通过从这个存储库中下载数据集,您可以获得更大更丰富的数据集,帮助您进行更深入的研究和学习。您可以使用以下代码来轻松调用数据集:from datasets import load_dataset = load_dataset("bookcorpus")
BookCorpus文本数据集下载
用户评论
推荐下载
-
Excel新旧版本数据导出到数据集
Excel新旧版本数据导出到数据集
59 2019-03-09 -
TextProcessor一个用于预处理文本数据集以进行后文本分析的Java包开源
TextProcessor Java软件包是一个文本处理工具包,它提供了一些常用的文本处理功能,例如词干,删除停用词,生成术语词汇表以及计算术语-文档频率矩阵。 还支持基本主题挖掘模型,例如LDA和稀
2 2021-05-03 -
Python DataFrame对象plot函数的原始文本数据
Python DataFrame对象plot函数的原始文本数据
11 2021-01-31 -
python文本数据处理学习笔记详解
主要为大家详细介绍了python文本数据处理学习笔记,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
9 2020-09-21 -
用Python读取几十万行文本数据
今天小编就为大家分享一篇关于用Python读取几十万行文本数据,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
10 2020-09-21 -
有关hsql处理文本数据库的笔记
测试数据博文链接:https://ynial.iteye.com/blog/148657
27 2019-09-03 -
TXT文本数据提取软件v1.0.zip
TXT文本数据提取软件简介在一个data文件夹中存在多个指定格式的TXT文本文件,可以按照人员和数据的日期,提取自己所需要的数据,更改源码可以实现不同格式的数据的提取。注意事项:1、开发环境为Visu
22 2019-09-05 -
文件文本数据等多功能比较对比工具
文件夹比较文本比较mp3比较版本比较十六进制比较数据比较图片比较同步文件夹文本合并
32 2019-09-09 -
datta可读的纯文本数据结构源码
达塔 可读的纯文本结构,用于严格格式化的数据 安装 npm i datta 用法 var datta = require ( 'datta' ) var str = datta . parse ( `
11 2021-02-08 -
文本数据库管理工具txtSQLAdmin
管理文本数据库的工具,超级好用txtSQLAdmin,php,phpMyadmin(txt),文本数据库 2009-12-28 上传大小:69KB
46 2019-02-18
暂无评论