简介
在数据分析的过程中,数据的筛选和过滤很常见。pandas的query函数可以方便地进行筛选和过滤,提高数据分析的效率。本文将详细介绍query函数的使用方法和注意事项。
query函数的使用方法
基本语法
query函数的基本语法是:DataFrame.query(expr)
其中,expr为字符串类型的查询表达式,可以包含变量和运算符。
查询表达式
query函数中的查询表达式是一个字符串,可以使用以下运算符:
比较运算符
比较运算符有:==, !=, >, >=, <, <=
。比如,要选取df表中col1等于1的行:
df.query("col1 == 1")
逻辑运算符
逻辑运算符有:&& (and), || (or), ~ (not)
。比如,要选取col1等于1并且col2等于2的行:
df.query("col1 == 1 && col2 == 2")
in运算符
in运算符用于选取列中符合条件的行,语法为in [list]
。比如,要选取col1在列表[1, 2, 3]中的行:
df.query("col1 in [1, 2, 3]")
字符串方法
query函数还支持对字符串列进行操作。可以使用字符串方法,例如str.contains()
,str.startswith()
,str.endswith()
等来筛选行。比如,选取col1列中以a开头的行:
df.query("col1.str.startswith('a')")
变量
变量在查询表达式中使用$符号引用。比如,要选取变量x中的值为1的行:
x = 1
df.query("col1 == $x")
注意事项
在使用query函数时,需要注意以下几点:
列名和函数名的引用
在query函数中引用列名和函数名时,需要使用反引号(`)。
df.query("`my column` == 1")
字符串和数字的区别
在query函数中,字符串和数字的引用方式是不同的。字符串需要使用引号,而数字不需要。比如,要选取col1等于字符串'1'的行:
df.query("col1 == '1'")
如果要选取col1等于数字1的行,则不需要引号:
df.query("col1 == 1")
特殊字符的转义
在query函数中,如果查询表达式中出现了特殊字符,需要进行转义。例如,要选取所有包含字符(的行:
df.query("`my column`.str.contains('\(')")
完整示例
以下是一个完整的示例代码,展示如何使用query函数选取数据。
import pandas as pd
import numpy as np
df = pd.DataFrame({'col1': [1, 2, 3, 4],
'col2': [2, 3, 4, 5],
'col3': ['abc', 'def', 'ghi', 'jkl']})
# 选取col1等于1和col2等于2的行
df.query("col1 == 1 && col2 == 2")
# 选取col1在列表[1, 2, 3]中的行
df.query("col1 in [1, 2, 3]")
# 选取col3包含字符g的行
df.query("`col3`.str.contains('g')")
# 选取col2大于等于3的行
df.query("col2 >= 3")