为了满足国内中文情感挖掘领域对语料的需求,谭松波采集整理了一个大规模的酒店评论文本资源库。该资源库包含10000篇文本,来源于携程网的自动采集,并经过整理处理。为了方便使用,该资源库被划分为四个子集:

1. ChnSentiCorp-Htl-ba-2000:包含1000篇文本,正负情感分类均匀分布。

2. ChnSentiCorp-Htl-ba-4000:包含2000篇文本,正负情感分类均匀分布。

3. ChnSentiCorp-Htl-ba-6000:包含3000篇文本,正负情感分类均匀分布。

4. ChnSentiCorp-Htl-unba-10000:包含7000篇正向情感文本和少量负向情感文本的非平衡语料。