高级项目推文:没有任何推文是安全的 源码
高级项目 诺亚·西格尔·古尔德(Noah Segal-Gould)于2018年5月从巴德学院获得计算机科学和实验人文学位的高级项目 警告:Twitter更改了其API,并且该项目当前离线。 我将来可能会更新它。 目标: 在Twitter上获取并标识“ subtweets”。 进度(完成): 根据对tweets的答复中是否存在“ subtweet”,下载subtweets和非subtweets 使用户名,URL和标签的提及变得通用(例如“ #woohoo”->“ HASHTAG”) 将非子推文和子推文合并到一个数据集中 使用K折将数据集分为训练数据和测试数据 使用训练数据训练朴素贝叶斯分
文件列表
高级项目推文:没有任何推文是安全的
(预估有个269文件)
scorpiodisaster_tweets.csv
648KB
juliaeberry_tweets.csv
653KB
noahsegalgould_tweets.csv
364KB
gothodile_tweets.csv
461KB
juliaeberry_tests.csv
526KB
consolidated_subtweets_2018-02-01.csv
665KB
consolidated_subtweets_2018-02-13.csv
964KB
consolidated_subtweets_2018-02-28.csv
1.27MB
Subtweets_Classifier_Training_Data-checkpoint.csv
973KB
Subtweets_Classifier_Training_Data.csv
973KB
暂无评论