颜色分类leetcode Data Mining Cup 2016:2016年数据挖掘杯第一名

上岛上咖啡 2 0 zip 2024-10-05 10:10:40

颜色分类leetcode获胜解决方案被评为Uni_UC_Davis_2队任务描述DMC 2016的任务是根据2014年1月至2015年9月的历史销售数据和相关退货率,预测真实匿名时尚经销商2015年10月至2015年12月的退货率。训练数据由233万个观测值组成,和14个预测变量,包括10个分类变量和4个数值变量。特征工程一直是数据科学竞赛中最重要、最关键的部分。我们从几个不同的角度处理特征工程问题:聚合。我们按某些变量(例如orderID、customerID、articleID和orderDate)对数据(例如价格、数量)进行分组。对于每组数据,我们应用聚合函数,包括均值、总和、元素数、唯一元素数等。然后我们通过将汇总数据插入到每一行中来扩展汇总数据。以下是一些示例:每个订单的总数量、每位客户的订单总数以及每件商品的平均建议零售价。解码。ColorCode由四位数字表示,其中每个数字都有自己的含义,例如颜色、阴影和图案。因此,将colorCode字段解码并转化为多个特征。

用户评论
请输入评论内容
评分:
暂无评论