剑 快速的Twitter数据集创建和Twitter词频分析 总览 Twords是一个Python类,用于收集推文并在Jupyter笔记本中调查其词频。 Twords使用Jefferson Henrique的Java版本的GetOldTweets(可下载)下载tweets,通过直接查询Twitter网站来克服Twitter API的局限性。 收集速度约为每分钟3000条推文,这意味着可以在大约6个小时内收集100万条推文数据集。 一旦收集了推文,就可以使用Twords将推文加载到熊猫数据框中,清理它们,计算其词频,并可视化推文中与一般Twitter背景词频相比的词的相对频次。 字词还提供了有助