Twitter爬虫 描述 Twitter的API限制您查询用户的最新3200条推文。 这是一个痛苦的屁股。 但是,我们可以使用Selenium并进行一些网络抓取来规避此限制。 我们可以在Twitter上查询用户的整个时间,找到他们每个推文的ID。 从那里,我们可以使用tweepy API查询与每个tweet相关的完整元数据。 您可以通过更改scrape.py顶部的变量METADATA_LIST来调整收集哪些元数据。 就我个人而言,我只是收集文本来训练模型,因此,我只关心full_text字段,除了该推文是否为转推文。 我在scrape.py顶部列出了所有可用的tweet属性,以便您可以随意