Pandas清洗数据：重复数据-CFANZ编程社区

在Pandas中可以使用duplicated方法查找重复数据，用drop_duplicates方法清除重复数据。

import pandas as pd

frame = pd.DataFrame({'a':['one']*2+['two']*3,'b':[1,1,2,2,3]})
#      a  b
# 0  one  1
# 1  one  1
# 2  two  2
# 3  two  2
# 4  two  3

print(frame)
# 统计重复数据的个数
frame.duplicated().value_counts()
# False    3
# True     2
# dtype: int64

# 查看各行是不是重复行
frame.duplicated()
# 0    False
# 1     True
# 2    False
# 3     True
# 4    False
# dtype: bool

# 清除重复的最后一行数据
frame.drop_duplicates()
#     a b
# 0 one 1
# 2 two 2
# 4 two 3

# 清除指定行数据
frame.drop_duplicates(['a'])
#   a   b
# 0 one 1
# 2 two 2