reuters21578语料库,是文本挖掘必备的语料库。本人专业为文本挖掘,欢迎同行交流分享经验。
中英文平行语料库,用于机器翻译,问答系统等模型的预处理语料
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
搜狗W ,是搜狗的语料中的东西,下着研究看看吧,应该用用
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料
有关运用语料库数据的教学,希望能给研究教学的有些启示。
藏语词类的基本属性描述是藏语语料库多级加工的基础,根据藏语语料库多级加工的实际需要,通过对藏语词类的语法、语义信息的描述和藏语词语后添加方式的分析,可以为计算机对藏文的词语搭配结构、语法信息、语义信息
权威的立体匹配代码算法,微软研究院研发,包括很多经典的测试样例-Theauthorityofthestereomatchingcodealgorithm,MicrosoftResearchR&D,in
写学术论文的技巧,微软研究院课程,刘铁岩翻译。hdwxc上传。
腾讯研究院高级算法平台研发通讯录,电话,邮箱LIST