0
点赞
收藏
分享

微信扫一扫

Pandas清洗数据:重复数据


在Pandas中可以使用duplicated方法查找重复数据,用drop_duplicates方法清除重复数据。

import pandas as pd

frame = pd.DataFrame({'a':['one']*2+['two']*3,'b':[1,1,2,2,3]})
# a b
# 0 one 1
# 1 one 1
# 2 two 2
# 3 two 2
# 4 two 3

print(frame)
# 统计重复数据的个数
frame.duplicated().value_counts()
# False 3
# True 2
# dtype: int64

# 查看各行是不是重复行
frame.duplicated()
# 0 False
# 1 True
# 2 False
# 3 True
# 4 False
# dtype: bool

# 清除重复的最后一行数据
frame.drop_duplicates()
# a b
# 0 one 1
# 2 two 2
# 4 two 3

# 清除指定行数据
frame.drop_duplicates(['a'])
# a b
# 0 one 1
# 2 two 2


举报

相关推荐

0 条评论