本文目录一览:
python--pandas删除
drop 方法是pandas中删除行或列的方法。
根据 索引名 删除目标行。
当需要根据索引位置删除时,可以使用 index 属性来组合完成。
根据 列名 删除目标列,同时需要设置 axis=1 或者 columns 。
当需要根据列位置删除时,可以使用 columns 属性来组合完成。
删除列也可以用关键字 del 实现,每次只能删除一列,且删除列后,原数据发生改变。
同时删除行和列,需要为行使用 index 参数,为列使用 columns 参数。
当数据框有多重索引时,删除行时,需要设置 level 参数。
多重索引数据框同时删除行和列时,只能删除第一层索引和列。
dropna 为删除缺失值的方法。
默认会删除包含缺失值的所有行。
可设置 how , thresh , subset 参数控制删除的行为。
设置参数 axis=1 或者 axis=columns 删除缺失列。
同样,可以设置 how , thresh , subset 参数来控制删除缺失列的行为。
删除重复值用 drop_duplicates 方法实现。
设置 subset 参数,根据列删除重复行。
设置 ignore_index=True 可以对删除重复行后的数据索引重排序。
python删除重复数据
利用集合的不重复属性,可以先转换至集合,再用list()函数转换回来即可。
比如,a是一个列表,a=list(set(a)),即可完成列表去重。
python如何批量对每一个excel文件进行去重?
01
去重
我们使用Pandas库的drop_duplicates(subset=None, keep=‘first’, inplace=False)功能来对Excel文件中的重复项进行删除。
其中,subset参数代表指定列标记,默认当每一条行记录完全相同时,才会认定为重复行;keep=‘’有‘first’、‘last’和‘False’,意思是删除重复行时,保留first还是last还是全部删除,默认参数是‘first’;inplace=‘’有True和Flase,意思是直接替换还是保留副本,默认值是Flase。
读取Excel
import pandas as pd
df = pd.read_excel('全部.xlsx')
选中列去重
df.drop_duplicates(['用户名称'])
其中第2、3行的用户名称与第0、1行重复,所以被删除。
03
保存最后一个重复数据
df.drop_duplicates(['用户名称'],keep='last')
04
保存Excel
df.to_excel('去重后.xlsx')
02
批量获取Excel文件
在上面我们已经学会如何对单个Excel文件去重了,但是在读取文件名的时候,我们还是需要手动输入的,如果文件很多的话,我们要一个一个的输入,这不仅麻烦,而且也不符合自动化办公的名头。所以,我们就需要想办法取得该目录下的所有Excel文件。
这里我们用的是Pathlib库,取得该目录下所有的xlsx格式文件。
path = 'K:\自动化办公'
python如何有多个重复元素删除其中一个?
如果你知道他的索引(index)
假设他的索引存在变量a中
列表名为list
list.pop(a)
当然,也可以用remove函数
但是,局限于只能删第一个
比如:
a=[0,1,1,1,2,3,3]
a.remove(1)
print(a)
结果为:
[0, 1, 1, 2, 3, 3]