practical nlp:《实用自然语言处理(O'Reilly)》一书的注释和测试 源码
实用自然语言处理 《实用自然语言处理(O'Reilly)》一书的注释和测试 第一部分。基础 NLP管道 数据采集 文字清理 - Unicode normalization - Spell correction - Keyboard errors (fat finger) - OCR errors - Which character to replace first? - keyboard - inner key's first - ??? (statistically) - OCR - ?? (statistically, depending on the source docs) 前处理 - Text -> [Sentence Tokenization] -> Sentences - Sentence - Lowercasting - Removal
文件列表
practical-nlp-main.zip
(预估有个6文件)
practical-nlp-main
img
information-extraction-nlp-pipeline.png
79KB
poor-classifier-performance.png
57KB
no-data-training-pipeline.png
119KB
generic-nlp-pipeline.png
76KB
.gitignore
2KB
README.md
12KB
暂无评论