《RapidMiner数据分析与挖掘实战》第12章文本挖掘
本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程,来学习垃圾短信和我们实际想阅读的短信之间的区别。然后我们将应用此学习到的模型到新的短信中,来确定其是否为垃圾短信。垃圾短信是许多熟悉主题中的一种,自然地,我们由此就开始动手工作。用于垃圾短信分类的相同的技术可以在许多其他文本挖掘领域中使用。
本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程,来学习垃圾短信和我们实际想阅读的短信之间的区别。然后我们将应用此学习到的模型到新的短信中,来确定其是否为垃圾短信。垃圾短信是许多熟悉主题中的一种,自然地,我们由此就开始动手工作。用于垃圾短信分类的相同的技术可以在许多其他文本挖掘领域中使用。