Ta上传的资源 (0)

自学eda数据分析代码 有待进一步完善 #2.3.1 载入各种数据科学以及可视化库: 数据科学库 pandas、numpy、scipy; 可视化库 matplotlib、seabon; 其他; #2.3.2 载入数据: 载入训练集和测试集; 简略观察数据(head()+shape); ......

异常处理: 通过箱线图(或3-Sigma)分析删除异常值; BOX-COX转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到[0,1]区间); 针对幂律分布,可以取log 数据分桶: 等频分桶; 等距分桶; Best-KS分桶(类似利用