ark tweet nlp:CMU ARK Twitter词性标注器源码

spectrum3739 11 0 ZIP 2021-04-18 02:04:55

ark-tweet-nlp:CMU ARK Twitter词性标注器

推荐下载

词性标注在很多信息处理环节中都扮演着关键角色。哈萨克语作为新疆地区通用的少数民族语言之一,自然语言处理中的一些基础性的课题同样成为迫切需要解决的问题。分析了哈萨克语的构形语素特征,基于词典的一级标注基

data.txt是词性分类文本,本文档包含16254个字与词语,(词性标注由国家语委现代汉语语料库下载,默认为Excel,这里提取为txt)为深度学习中的词性标注提供便利。

英文分词语料库,共有198796行,每个单词都有词性标注,对句话的结束都有句号,便于处理。覆盖大部分主流行业的语料。例如:Newsweek/NNP,/,trying/VBGto/TOkee

词性标注按照国家语委词性标注集,编码为utf-8,未进行分句。

介绍了词性标注系统的设计与实现,描述了该系统的功能和总体结构,系统的各模块及其功能,系统所使用的兼类词典、非兼类词典、词性标注集,最后对系统的总体性能进行测试并对测试结果进行了分析。

人民日报统计出来的用于自然语言处理的中文词典

词性标注词典,Access数据库,中文信息处理课编写分词程序可以用到

是进行英文语言处理的必备工具。可以对英文语料进行词性标注,还可识别出名词性短语、命名实体,其正确性高达95%以上,是自然语言处理专业学生的不可或少的工具。

中文词性标注学习训练算法,绝对可以运行,具有极高的参考价值~

文件说明: raw_data.txt //原始数据集(语料库) handle.py //因为原始数据集很大,可以通过handle.py对去全量数据集进行处理,得到小的数据集 hmm1.py //隐马模

用户评论

请输入评论内容

评分：

暂无评论

ark tweet nlp:CMU ARK Twitter词性标注器 源码