本文主要介绍在pandas中重复数据删除的实现方法。通过示例代码进行了非常详细的介绍,对于大家的学习或者工作都有一定的参考价值。有需要的朋友就跟着下面的边肖学习吧。
重复数据删除可以使用两种方法:duplicated()和drop_duplicates()。
数据框。Duplicated (subset=none,keep=first )返回表示重复行的布尔序列。
参数:
子集:列标签或标签序列,可选。
只考虑用于标识重复项的一些列,默认情况下使用所有列。
Keep: {first , last ,False},默认为 first
First:标签重复出现,除了第一次出现时为真。
Last:标签重复出现,除了最后一次出现,否则为真。
错误:将所有重复标记为真。
将numpy作为np导入
进口熊猫作为pd
来自熊猫进口系列,数据框架
df=pd.read_csv(。/demo _ duplicate . CSV’)
打印(df)
打印(df[Seqno]。unique()) # [0。1.]
#使用重复值查看重复值
#参数keep可以标记重复值{first , last ,False}
打印(df[Seqno]。重复())
0错误
1正确
2正确
3正确
4错误
名称:Seqno,数据类型:bool
#删除系列重复数据
打印(df[Seqno]。drop_duplicates())
0 0.0
4 1.0
名称:Seqno,型号:float64
#删除数据帧重复数据
打印(df。drop _ duplicates ([Seqno]) #根据Seqno。
价格序列号符号时间
0 1623.0 0.0 APPL 1473411962
4 1649.0 1.0 APPL 1473411963
# drop _ dujplicates()第二个参数keep包含以下值:first,last,False
print(df . drop _ duplicates([ seqno ],keep= last )#保存最后一个
价格序列号符号时间
3 1623.0 0.0 APPL 1473411963
4 1649.0 1.0 APPL 1473411963
pandas 去除重复行
data frame . drop _ duplicates(subset=None,keep=first ,inplace=False)
子集:指定列,默认情况下使用所有列。
Keep: {first , last ,False},默认为 first
第一个:删除重复项,保留第一个匹配项。Last:删除重复项并保留最后一次出现的项。False:删除所有重复项。
Inplace:布尔值,默认值为False。您是要删除副本还是退回副本?
栗子:
关于熊猫重复数据删除实现方法的文章到此结束。有关Pandas重复数据删除的更多信息,请搜索我们以前的文章或继续浏览下面的相关文章。希望大家以后能多多支持我们!