classycn是一款古典汉语分句器,专门用于处理和分析古典汉语文本。该工具的数据部分包括大量的历史文献,数据文件夹大小超过1G。主要的数据集包括:
-
data/sjw:来自Seungjeongwon Ilgi的清理数据,源自古代韩国皇家秘书处的备忘录,包含超过2亿个字符和16,000多个唯一字符。
-
data/24s:中国“二十四史”的半清洗数据(不包括韩书和三国志),数据来自维基文库,可能包含嘈杂的标记,共计2000万个令牌,12k个唯一身份。
-
data/向量:使用GloVe和Word2Vec生成的词向量。
脚本部分包括多种标记器的训练和测试方法:
-
runhmm:训练和测试来自NLTK的HMM标记器。
-
runcrf:从CRF Suite训练和测试CRF标记器。
-
runlstm:训练和测试双向LSTM标记器,用Theano实现。
联系人:胡一舟,联系邮箱huyz725+github at gmail.com。
为帮助读者更好地理解和应用这些工具和数据,以下是一些与主题相关的资源和下载链接:
-
汉语单词向量:提供上百种预训练中文词向量的源码。
-
词向量资料:关于词向量的详细资料。
-
词向量.zip:包含大量词向量文件的压缩包。
-
词向量glove论文:介绍GloVe词向量的研究论文。
-
fasttext词向量中文:提供FastText中文词向量的资源。
暂无评论