COAE2008数据集,4万篇中文文档.数据来源于一个语料分类比赛. 语料规模接近40000篇。其中至少包括4000余篇情感文本,这些情感文本均采用手工标注。参赛者只需下载压缩包并解压后即可使用。语料中大致含有两种编码:即GB2312,Unicode(UTF-8)编码。可以正常用写字板打开的是GB2312,显示为乱码的为Unicode(UTF-8)编码。