语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
让需要的人可以更容易找到吧,只是不知道传的会不会有问题试试。。。。
美国当代英语语料库COCA20000条,试着来挑战一下吧。
搜狗文本分类语料库
Corpus WordSmith translation research use
机器人对话语料库,苦苦收集而来,希望可以帮助大家,谢谢支持
这个语料库大概有上万条对话,都是中文的,免费分享给大家。缺点是使用的语法都是最基本的语法,没有一些华丽的对话设置。
Concapp 由香港理工大学虚拟语言学习中心发布,是一款针对语料库的检索软件,主要支持英语语料的处理,汉语和日语语料的处理不够理想。 Concapp 在英文科技论文写作中,可以帮助我们了解其他文献(
语料库工具 分词器,清理器,分析器,模糊匹配器,TfIdf,Eval,POS-tagger 令牌器(OpenNMT): pip install pyonmttok echo "Hello W
藏语语料库预处理研究