Jiayan:甲言专注于古代汉语(古汉语古文文言文文言)处理的NLP工具包支持文言词库合成分词词性标注断句和标点。Jiayan是为古典汉语设计的工具包支持词典构
甲言Jiayan 简介 甲言,取“Oracle言”之意,是一种专注于古汉语处理的NLP工具包。目前通用的汉语NLP工具均以现代汉语为核心语料,对古代汉语的处理效果很差(详见)。本项目的初衷,便是辅助古汉语信息处理,帮助有志于挖掘古文化矿藏的古汉语学者,爱好者等更好的地分析和利用文言资料,从“文化遗产”中创造出“文化新产”。当前版本支持,,,和五项功能,更多功能正在开发中。 功能 利用无监督的双,以及左右进行文言词库自动生成。 利用无监督,无词典的和进行古汉语自动分词。 利用词库合成功能产生的文言词典,基于有向无环词图,句子最大概率路径和动态规划算法进行分词。 根据词的的序列标注,词性详见。 基
文件列表
Jiayan-master.zip
(预估有个28文件)
Jiayan-master
MANIFEST.in
67B
requirements.txt
77B
LICENSE
1KB
setup.py
2KB
README.md
19KB
jiayan
lexicon
pmi_entropy_constructor.py
6KB
__init__.py
0B
暂无评论