如果您正在寻找一个流行的大型文本语料库,BookCorpus是一个很好的选择。它适合在无人监督下学习句子的编码/解码器,并包含从smashwords等来源获取的大量文本数据。虽然BookCorpus目前已不再更新,但通过从这个存储库中下载数据集,您可以获得更大更丰富的数据集,帮助您进行更深入的研究和学习。您可以使用以下代码来轻松调用数据集:from datasets import load_dataset = load_dataset("bookcorpus")