您的位置:

python中的dropna,Python中的split

本文目录一览:

python数据分析干什么

第一、检查数据表

Python中使用shape函数来查看数据表的维度,也就是行数以及列数。你可以使用info函数来查看数据表的整体信息,使用dtype函数来返回数据格式;lsnull是Python中检验空值的函数,可以对整个数据表进行检查,也可以单独对某一行进行空值检查,返回的结构是逻辑值,包含空值返回true,不包含则返回false。

第二、数据清洗

Python可以进行数据清洗,Python中处理空值的方法比较灵活,可以使用Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充;Python中dtype是查看数据格式的函数,与之对应的是astype函数,用来更改数据格式,Rename是更改列名称的函数,drop_duplicates函数删除重复值,replace函数实现数据替换。

第三、数据提取

进行数据提取时,主要使用三个函数:loc、iloc以及ix。Loc函数按标签进行提取,iloc按位置进行提取,ix可以同时按照标签和位置进行提取。除了按标签和位置提取数据之外,还可以按照具体的条件进行提取,比如使用loc和isin两个函数配合使用。

第四、数据筛选

Python数据分析还可以进行数据筛选,Python中使用loc函数配合筛选条件来完成筛选功能,配合sum和count函数还能实现Excel中sumif和countif函数的功能。使用的主要函数是groupby和pivot_table;groupby是进行分类汇总的函数,使用方法比较简单,groupby按列名称出现的顺序进行分组。

python--pandas删除

drop 方法是pandas中删除行或列的方法。

根据 索引名 删除目标行。

当需要根据索引位置删除时,可以使用 index 属性来组合完成。

根据 列名 删除目标列,同时需要设置 axis=1 或者 columns 。

当需要根据列位置删除时,可以使用 columns 属性来组合完成。

删除列也可以用关键字 del 实现,每次只能删除一列,且删除列后,原数据发生改变。

同时删除行和列,需要为行使用 index 参数,为列使用 columns 参数。

当数据框有多重索引时,删除行时,需要设置 level 参数。

多重索引数据框同时删除行和列时,只能删除第一层索引和列。

dropna 为删除缺失值的方法。

默认会删除包含缺失值的所有行。

可设置 how , thresh , subset 参数控制删除的行为。

设置参数 axis=1 或者 axis=columns 删除缺失列。

同样,可以设置 how , thresh , subset 参数来控制删除缺失列的行为。

删除重复值用 drop_duplicates 方法实现。

设置 subset 参数,根据列删除重复行。

设置 ignore_index=True 可以对删除重复行后的数据索引重排序。

python数据分析使用的数据

1、对数据进行排序df.sort_values()

#读取数据

titanic_survival=pd.read_csv(r"C:Userspythonwandata_minepython_pandas itanic_train.csv")

#用sort_values()函数对指定列排序,默认升序排序,inplace=True表示在原来的df上排序titanic_survival.sort_values(("Age"),inplace=Tru

2、缺失值判断及统计pandas.isnull()、pandas.isnull

空值统计方法一:df.isnull().sum():

#当不指定具体列时,统计整个df的缺失值个数

titanic_survival['Age'].isnull().sum()

通过len()函数统计缺失值

3、缺失值处理

处理缺失值可以分为两类:删除缺失值和缺失值插补。而缺失值插补又分为以下几种:

均值/中位数/众数插补

使用固定值(将缺失值的属性用一个常量代替)

最近邻插补(在记录中找到与缺失值样本最接近的样本的该属性插补)

回归方法(对带有缺失值的变量,根据已有数据和与其有关的其他变量建立拟合模型来预测缺失值)

插值法(利用已知点建立合适的插值函数f(x),未知值由对应点xi求出来近似代替)

下面,我们主要讨论删除缺失值,学习一些pandas缺失值删除的操作。

1)df.dropna(),舍弃含有任意缺失值的行

#等价于titanic_survival.dropna(axis=0) axis=0表示删除行,axis=1表示删除列

dropall=titanic_survival.dropna()

删除含任意空值的行

2)df.dropna()函数删除某个列中含有空值的行

现在这个数据中age、cabin、embarked都有缺失值,如果我们直接使用df.dropna()会删除掉这三列中都有空值的所有行,但是我们希望只删除age列中有空值的数据,那该如何处理呢?

直接使用df.dropna(subset=['column_list'])

drop_age_null=titanic_survival.dropna(subset=["Age"])

删除指定列中含有缺失值的行

pandas自定义函数