懒人 一个简单的库,使您可以对网页进行爬网,清理和重复数据删除以创建大量的单语数据集。 使用此库,您应该能够创建比OpenAI用于GPT-2的数据集更大的数据集。 建立 该库使用Python 3。 克隆此库并将其CD放入lazynlp文件夹: git clone https://github.com/chiphuyen/lazynlp.git cd lazynlp 安装依赖项 pip3 install -r requirements.txt 安装库pip3 install . 如果要卸载该库,请使用: pip3 uninstall lazynlp 如何使用lazynlp创建海量数