semeval14.zip 情感分类常用数据集rest14和lap14,针对aspect term进行分类,极性分为positive,negative, neutral。只有训练集和测试集,移除了有矛盾的情感极性
acl14short data.zip 情感分类常用数据集Twitter,针对aspect term进行分类,极性分为positive,negative, neutral。只有训练集和测试集,移除了有矛盾的情感极性
LSTM神经网络训练的PTB语料 NLP中常用的PTB语料库,全名PennTreebank。 PennTreebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。 语料来源为:1989年华尔街日报 语料规模:1Mwords,2499篇文章
UCI机器学习数据仓库的威廉康星乳腺癌诊断数据集 KNN专用大数据集,这个数据集包含569例细胞活检案例,每个案例有32个乳房肿块活检图像显示的细胞核的特征。第一个特征是ID,第二个是这个案例的癌症诊断结果,癌症诊断结果用编码"M"表示恶性,B表示良性。其他30个特征是数值型的其他指标,包括细胞核的半径(Radius)、质地(Texture)、周长