classycn是一款古典汉语分句器,专门用于处理和分析古典汉语文本。该工具的数据部分包括大量的历史文献,数据文件夹大小超过1G。主要的数据集包括:

  • data/sjw:来自Seungjeongwon Ilgi的清理数据,源自古代韩国皇家秘书处的备忘录,包含超过2亿个字符和16,000多个唯一字符。

  • data/24s:中国“二十四史”的半清洗数据(不包括韩书和三国志),数据来自维基文库,可能包含嘈杂的标记,共计2000万个令牌,12k个唯一身份。

  • data/向量:使用GloVe和Word2Vec生成的词向量。

脚本部分包括多种标记器的训练和测试方法:

  • runhmm:训练和测试来自NLTK的HMM标记器。

  • runcrf:从CRF Suite训练和测试CRF标记器。

  • runlstm:训练和测试双向LSTM标记器,用Theano实现。

联系人:胡一舟,联系邮箱huyz725+github at gmail.com。

为帮助读者更好地理解和应用这些工具和数据,以下是一些与主题相关的资源和下载链接:

  1. 汉语单词向量:提供上百种预训练中文词向量的源码。

  2. 词向量资料:关于词向量的详细资料。

  3. 词向量.zip:包含大量词向量文件的压缩包。

  4. 词向量glove论文:介绍GloVe词向量的研究论文。

  5. fasttext词向量中文:提供FastText中文词向量的资源。