搜狗词语搭配库mini版1 互联网词语搭配关系库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。涉及到的搭配样例超过2000万,涉及到的高频词超过15万。 数据格式为 二元组1同现次数1 二元组2同现次数2 ... 二元组N同现次数N
搜狗分类语料库精简版1 文本分类语料库来源于搜狐新闻网站保存的大量经过编辑和人工整理的新闻语料库和相应的分类信息。它的分类体系包括了几十个分类节点,网页的大小约为 100,000 个文档。语料库统计的意义: 提供大规模的标准中文文本分类测试平台。应用案例: 中文文本分类、话题跟踪检测等。
搜狗分类语料库精简版2 文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与检测等。