无论是做机器学习还是做数据分析,都离不开获取数据后的第一步-数据清洗工作。据统计,数据清洗工作占据整个工作时间百分之50左右,有的甚至能达到百分之70。下面我将介绍我进行数据清洗得思路流程。 数据清洗整体流程脑图(不断更新中...) 数据准备 本次数据清洗工作我们使用得数据是一个借贷机构开放的用户数据(仅用于个人练习),由于源数据量有将近30万,考虑到运行速度,这里例子从这30万中随机抽取1万条数据。 下载地址:LCIS.csv 提取码:ag8t 注:此数据仅仅作为方法演示使用,忽略真实数据分析时的业务逻辑考虑。 导入相应的python工具包和数据 import numpy as np impo