countries.txt 在对网页采取requests_html数据抓取之后,我们对网页的所有内容进行txt输出。由于网页中有太多其他引导性内容,且我们需要的主要内容很集中,所以我们直接将主要内容复制粘贴进countries.txt,留待进一步提取内容。
音乐推荐系统数据集.zip 这是一份音乐数据集,包含上千万的数据。里面有两个文件,一个.txt文件,用来保存用户行为数据集,一个.db文件,用来保存音乐具体信息数据集。通过这两份数据集,我们可以搭建一个音乐推荐系统。
tmdb5000.zip 这是一份电影数据,来自kaggle平台上,主要是美国地区的4800多部电影的详细信息,包括 剧组信息、演员信息、类别、关键词、点赞数等等。我们可以用来做数据探索,或者电影推荐等。
lianjia_beijingHousing_fromKaggle.zip 该数据集主要包含2011-2017链家平台上北京房价数据,有26个特征,压缩包大小50M,可以用来做房价预测等,详细kaggle链接:https://www.kaggle.com/ruiqurm/lianjia