Reddit NLP 源码
项目3:Web API和NLP 问题陈述 通过使用带有不同矢量化器的各种模型,我想通过分析用户在不同子reddit中使用的词来确定模型是否可以准确预测用户的成熟度/年龄。 我将从每个subreddit,r / Teenagers和r / Adulting收集5,000行数据,并使用这些数据来训练我的朴素贝叶斯和KNN模型。 我的目标是确定在两个子Reddit中的任何一个中使用的关键字,创建停用词,并确定模型中的最佳超参数。 使用的内容和数据 笔记本(按顺序) 数据采集 Adulting_DataCollection.ipynb Teens_DataCollection.ipynb 预
文件列表
Reddit-NLP-main.zip
(预估有个17文件)
Reddit-NLP-main
Project3_Preprocessing.ipynb
1.37MB
Project3_Teenagers_DataCollection.ipynb
50KB
Project 3_ Web APIs & NLP (1).pptx
1.12MB
images
teenagers_common_words.png
13KB
misclassified_naivebayes.png
13KB
misclassified_knn.png
11KB
adults_common_words.png
12KB
overall_common_words.png
11KB
暂无评论