Python处理文本分类代码一 加载Gutenberg语料库; 过滤停用词; 构建词袋模型:一篇文档是有其中的词构成的一个集合(袋子); 词频分析:NLTK中的FreqDist类可以将单词封装成字典。 分类器部分代码见《Python处理文本分类代码(二) 》下载资源
线性回归实现sklearn自带的糖尿病datasets数据集 【线性回归实现sklearn自带的糖尿病datasets数据集】Diabetes:包含442个患者的10个生理特征(年龄,性别、体重、血压)和一年以后疾病级数指标。可参考博主文章《【机器学习+sklearn框架】(一) 线性模型之Linear Regression》