1。前言 通过 sklearn 对从爬虫捉取的网页文本进行情绪分类,只是简单化的工科内容而不是理科内容(无理论分析)。 2。思路 从 MongoDB 中随机抽取数据,然后用jieba分词再进行分词,然后用 sklearn 做学习样本进行分类。 jieba分词后可能会多达4、5万个词,所以必须计算各词信息熵,把信息熵高的词汇剔除掉。 剩余信息熵低的关键字用 sklearn 包进行学习。 3。爬虫捉取内容 廿捌-原爬虫项目加入客制化内容,Python 读取 URL 域名 通过前期爬虫项目捉取内容,并且手动对接近1000多条数据进行人工情绪分类。 人工分类页如下: 4。分析用代码 4-1) 读取