Ta上传的资源 (0)

解决nltk安装punkt等语料库时报错的问题; 把下载好的语料包punkt.zip解压到nltk_data/tokenizers/punkt中

加载Gutenberg语料库; 过滤停用词; 构建词袋模型:一篇文档是有其中的词构成的一个集合(袋子); 词频分析:NLTK中的FreqDist类可以将单词封装成字典。 分类器部分代码见《Python处理文本分类代码(二) 》下载资源

【线性回归实现sklearn自带的糖尿病datasets数据集】Diabetes:包含442个患者的10个生理特征(年龄,性别、体重、血压)和一年以后疾病级数指标。可参考博主文章《【机器学习+sklearn框架】(一) 线性模型之Linear Regression》