stackexchange dataset:用于将stackexchange数据转储到语言模型的文本数据集中的Python工具 源码
stackexchange_dataset 用于下载和处理到语言模型的文本数据集中的python工具。 在下载整个处理的数据集 设置 git clone https://github.com/EleutherAI/stackexchange_dataset/ cd stackexchange_dataset pip install -r requirements.txt 用法 要下载每个stackexchange转储并解析为文本,只需运行 python3 main.py --names all 要仅下载一个stackexchange,可以将名称添加为可选参数。 例如: python3 main.py --names security.stackexchange 要下载多个堆栈交换的列表,可以添加用逗号分隔的名称。 例如: python3 main.py --names ru.sta
文件列表
stackexchange-dataset-master.zip
(预估有个7文件)
stackexchange-dataset-master
pairer.py
8KB
utils.py
2KB
main.py
4KB
requirements.txt
43B
LICENSE
1KB
README.md
2KB
downloader.py
3KB
暂无评论