stackexchange_dataset 用于下载和处理到语言模型的文本数据集中的python工具。 在下载整个处理的数据集 设置 git clone https://github.com/EleutherAI/stackexchange_dataset/ cd stackexchange_dataset pip install -r requirements.txt 用法 要下载每个stackexchange转储并解析为文本,只需运行 python3 main.py --names all 要仅下载一个stackexchange,可以将名称添加为可选参数。 例如: python3 main.py --names security.stackexchange 要下载多个堆栈交换的列表,可以添加用逗号分隔的名称。 例如: python3 main.py --names ru.sta