数据录入过程、数据整合过程都可能会产生重复数据,直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数据的方法duplicated和drop_duplicates。以如下数据为例: 发现重复数据通过duplicated方法完成,如下所示,可以通过该方法查看重复的数据。 需要去重时,可drop_duplicates方法完成: drop_duplicates方法还可以按照某列去重,例如去除id列重复的所有记录:缺失