grammar aided keyword extractor russian:俄语的语法辅助关键字提取器 源码
语法辅助的关键字提取器俄语 俄语的语法辅助关键字提取器 1.简介 提取算法依赖于用户根据经验,方法论或理论依据所定义的内容,以作为合适的语法模式来查找关键字。 模式被表示为语法中的词性(POS)标签序列。 由于提取算法在文本中搜索用户定义的POS序列,因此需要事先进行形态分析。 使用pymorphy2解析单词,并通过一种算法消除歧义,该算法在句子的上下文中提供最可能的标签序列。 提取的关键字是符合语法中用户定义为有效POS标记序列的n-gram。 关键字按其得分的降序排列和排序。 2.语法 语法作为单独的txt文件在外部提供。 文件中的每一行都只能描述一种模式的n个POS标签(每行一种模式)。 空行和带注释的行将被完全忽略(使用“#”字符输入注释),并且将验证标签是否符合本节其余部分中描述的格式。 由于提取算法建立在pymorphy2的形态分析之上,因此其命名法保持不变。 词性标签:“名
文件列表
grammar-aided-keyword-extractor-russian-main.zip
(预估有个6文件)
grammar-aided-keyword-extractor-russian-main
rules.txt
495B
transition_probabilities.json
3.58MB
kw_extractor.py
5KB
README.md
7KB
hmmtrigram.py
4KB
implementation_example.py
551B
暂无评论