前阵子参加牛客网举办的数据挖掘竞赛,数据源源自中华万年历的“生活圈”数据,类似于朋友圈,用户可以发表各种帖子,也可以对帖子内容进行赞踩等行为。数据内容是用户11月份的帖子浏览记录,以及前27天对帖子的赞踩记录,共约8G。 目标任务是根据用户11月份的浏览记录,以及前27天赞踩记录,挖掘出用户的个人喜好,然后预测用户对月末28,29,30这三天出现的帖子的赞踩行为。 本文给出解题思路及数据来源。