清洗文本-NLTK 我们无法使用原始文本来拟合机器学习或深度学习模型。 我们需要首先清理文本,这意味着将其拆分为单词并处理标点和大小写。 实际上,我们可能需要使用一整套文本准备方法,而方法的选择实际上取决于我们的自然语言处理任务。 本笔记本包括以下部分: 如何通过开发自己的非常简单的文本清除工具来入门。 如何加强和使用NLTK库中更复杂的方法。 但是,在开始之前,我们先选择数据集。 在本笔记本中,我将使用贾勒勒·玛玛古杜扎德(Jalil Mammadguluzadeh)的文字,他是著名的阿塞拜疆作家,伟大的戏剧家和民主人士。 该文件包括作者叙述的“ Kishmish oyunu”故事的一部分。