lazynlp:用于刮擦和清理网页以创建大量数据集的库 源码
懒人 一个简单的库,使您可以对网页进行爬网,清理和重复数据删除以创建大量的单语数据集。 使用此库,您应该能够创建比OpenAI用于GPT-2的数据集更大的数据集。 建立 该库使用Python 3。 克隆此库并将其CD放入lazynlp文件夹: git clone https://github.com/chiphuyen/lazynlp.git cd lazynlp 安装依赖项 pip3 install -r requirements.txt 安装库pip3 install . 如果要卸载该库,请使用: pip3 uninstall lazynlp 如何使用lazynlp创建海量数
文件列表
lazynlp-master.zip
(预估有个14文件)
lazynlp-master
MANIFEST.in
94B
lazynlp
exclude_domains.txt
2KB
crawl.py
9KB
utils.py
2KB
unprintable_chars.txt
456B
__init__.py
134B
exclude_extensions.txt
193B
cleaner.py
6KB
暂无评论