Ta上传的资源 (0)

在对网页采取requests_html数据抓取之后,我们对网页的所有内容进行txt输出。由于网页中有太多其他引导性内容,且我们需要的主要内容很集中,所以我们直接将主要内容复制粘贴进countries.txt,留待进一步提取内容。

这是一份音乐数据集,包含上千万的数据。里面有两个文件,一个.txt文件,用来保存用户行为数据集,一个.db文件,用来保存音乐具体信息数据集。通过这两份数据集,我们可以搭建一个音乐推荐系统。

这是一个非常简单的足球队信息的数据集,包括各个国家在三个年份的排名。通过对排名数据的聚类,我们可以将不同国家足球队分成几个档次。

这是一份电影数据,来自kaggle平台上,主要是美国地区的4800多部电影的详细信息,包括 剧组信息、演员信息、类别、关键词、点赞数等等。我们可以用来做数据探索,或者电影推荐等。

这是一份西雅图酒店数据集,有三个特征,酒店名称、酒店地址以及描述。可以用这份数据集的描述部分进行tf-idf分析,进而推荐相似酒店。

该数据集主要包含2011-2017链家平台上北京房价数据,有26个特征,压缩包大小50M,可以用来做房价预测等,详细kaggle链接:https://www.kaggle.com/ruiqurm/lianjia