Cleaning Text NLTK:手动和使用NLTK清洁文本 源码
清洗文本-NLTK 我们无法使用原始文本来拟合机器学习或深度学习模型。 我们需要首先清理文本,这意味着将其拆分为单词并处理标点和大小写。 实际上,我们可能需要使用一整套文本准备方法,而方法的选择实际上取决于我们的自然语言处理任务。 本笔记本包括以下部分: 如何通过开发自己的非常简单的文本清除工具来入门。 如何加强和使用NLTK库中更复杂的方法。 但是,在开始之前,我们先选择数据集。 在本笔记本中,我将使用贾勒勒·玛玛古杜扎德(Jalil Mammadguluzadeh)的文字,他是著名的阿塞拜疆作家,伟大的戏剧家和民主人士。 该文件包括作者叙述的“ Kishmish oyunu”故事的一部分。
文件列表
Cleaning-Text-NLTK-master.zip
(预估有个5文件)
Cleaning-Text-NLTK-master
kishmish.txt
23KB
nltk.ipynb
46KB
LICENSE
1KB
README.md
1KB
.gitignore
2KB
暂无评论