您的位置:

深入理解pandas的loc和iloc

一、loc介绍

在使用pandas进行数据分析时,loc和iloc是两个非常重要的操作方法。loc是location的缩写,在使用时需要输入df.loc[:, col_name]或是df.loc[row_name, col_name],其中row_name和col_name都是要进行过滤或者选取的条件。在实际的应用中,row_name可以是一个条件过滤的结果或者是某个具体的数值,col_name可以是字符串、列表或者是切片对象。

下面是一个例子:

import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f', 'h'], columns=['one', 'two', 'three'])
# 增加一行数据
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

# 对某一行进行选择
print(df.loc['a'])

# 对某一列进行选择
print(df.loc[:, ['one', 'two']])

# 对某一行、某一列进行选择
print(df.loc[['a', 'c', 'h'], ['one', 'two']])

在上面的例子中,我们创建了一个5*3的随机数矩阵,然后增加了一行数据。接下来使用loc选择了某一行,某一列,以及某一行某一列的元素。

二、iloc介绍

iloc也是一个非常重要的操作方式,它是根据元素的下标进行选择的,与loc不同的是,在使用时可以输入数字。在使用中,iloc与loc的参数有点类似,iloc可以接受一个整数或者整数列表作为第一个参数,来进行行的选择或者过滤。

同样的,下面是一个例子:

import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f', 'h'], columns=['one', 'two', 'three'])
# 增加一行数据
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

# 对第1行进行选择
print(df.iloc[1])

# 对第1~3行进行选择
print(df.iloc[1:4, :2])

# 对第1 ~3行,第 0, 2列进行选择
print(df.iloc[[1, 3], [0, 2]])

在上面的例子中,我们同样创建了一个随机数矩阵然后增加了一行数据,接着使用iloc进行了行和列的选择。

三、loc和iloc的差异

虽然loc和iloc用法类似,但是它们之间还是存在一些不同的区别。

1、loc使用字符串进行行和列的选择,iloc使用下标进行行和列的选择

这个是比较简单的区别,上面已经讲得比较清楚了。

2、loc使用的是闭区间进行选择,iloc使用的则是开区间进行选择

具体的说,如果用loc选取区间[a,b],则结果会包括b,而用iloc选取[a:b],则结果不会包括下标为b的元素。

3、loc可以进行布尔型索引,但是iloc不可以

loc能够接受布尔型的条件,效果类似于在数据中使用where语句,选择符合条件的元素。而iloc只能接受整数值,使用起来会受到一定程度的限制。

上面的3点是loc和iloc的主要区别,对于这两个方法的实际应用,在编写代码时需要根据实际情况进行选择。