python怎么删除重复数据库,python删除列表重复

发布时间:2022-11-17

本文目录一览:

1、python--pandas删除
2、python删除重复数据
3、python如何批量对每一个excel文件进行去重?
4、python如何有多个重复元素删除其中一个?

python--pandas删除

drop 方法是pandas中删除行或列的方法。

  • 根据 索引名 删除目标行。
  • 当需要根据索引位置删除时,可以使用 index 属性来组合完成。
  • 根据 列名 删除目标列,同时需要设置 axis=1 或者 columns
  • 当需要根据列位置删除时,可以使用 columns 属性来组合完成。
  • 删除列也可以用关键字 del 实现,每次只能删除一列,且删除列后,原数据发生改变。
  • 同时删除行和列,需要为行使用 index 参数,为列使用 columns 参数。
  • 当数据框有多重索引时,删除行时,需要设置 level 参数。
  • 多重索引数据框同时删除行和列时,只能删除第一层索引和列。 dropna 为删除缺失值的方法。
  • 默认会删除包含缺失值的所有行。
  • 可设置 how, thresh, subset 参数控制删除的行为。
  • 设置参数 axis=1 或者 axis=columns 删除缺失列。
  • 同样,可以设置 how, thresh, subset 参数来控制删除缺失列的行为。 删除重复值用 drop_duplicates 方法实现。
  • 设置 subset 参数,根据列删除重复行。
  • 设置 ignore_index=True 可以对删除重复行后的数据索引重排序。

python删除重复数据

利用集合的不重复属性,可以先转换至集合,再用list()函数转换回来即可。 比如,a是一个列表,a=list(set(a)),即可完成列表去重。

python如何批量对每一个excel文件进行去重?

01
去重
我们使用Pandas库的drop_duplicates(subset=None, keep='first', inplace=False)功能来对Excel文件中的重复项进行删除。 其中:

  • subset参数代表指定列标记,默认当每一条行记录完全相同时,才会认定为重复行;
  • keep='''first''last'False,意思是删除重复行时,保留first还是last还是全部删除,默认参数是'first'
  • inplace=''TrueFalse,意思是直接替换还是保留副本,默认值是False。 读取Excel:
import pandas as pd
df = pd.read_excel('全部.xlsx')

选中列去重:

df.drop_duplicates(['用户名称'])

其中第2、3行的用户名称与第0、1行重复,所以被删除。 03
保存最后一个重复数据:

df.drop_duplicates(['用户名称'], keep='last')

04
保存Excel:

df.to_excel('去重后.xlsx')

02
批量获取Excel文件
在上面我们已经学会如何对单个Excel文件去重了,但是在读取文件名的时候,我们还是需要手动输入的,如果文件很多的话,我们要一个一个的输入,这不仅麻烦,而且也不符合自动化办公的名头。所以,我们就需要想办法取得该目录下的所有Excel文件。 这里我们用的是Pathlib库,取得该目录下所有的xlsx格式文件。

path = 'K:\\自动化办公'

python如何有多个重复元素删除其中一个?

如果你知道他的索引(index): 假设他的索引存在变量a中,列表名为list

list.pop(a)

当然,也可以用remove函数,但是局限于只能删第一个。 比如:

a = [0, 1, 1, 1, 2, 3, 3]
a.remove(1)
print(a)

结果为:

[0, 1, 1, 2, 3, 3]