DataFrame是Python中pandas库中的一个数据结构,它是一个二维表格,可以很方便地存储和处理数据。对于数据处理的初学者来说,在查看DataFrame的数据类型可能会有些难度。但是,只要了解一些基本的概念和方法,就能很轻松地查看DataFrame的各列数据类型。
一、使用info()函数查看各列数据类型
在pandas库中,DataFrame对象提供了info()函数,可以用来查看每一列数据的数量,以及每一列的数据类型和占用空间大小。
import pandas as pd df = pd.read_csv('data.csv') df.info()
运行以上代码后,命令行或者Jupyter Notebook中会打印出DataFrame的各列数据类型以及占用空间大小,示例代码如下:
RangeIndex: 10 entries, 0 to 9 Data columns (total 3 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Name 10 non-null object 1 Age 10 non-null int64 2 Score 10 non-null float64 dtypes: float64(1), int64(1), object(1) memory usage: 368.0+ bytes
上述代码中,我们读取了一个名为"data.csv"的文件中的数据,并使用info()函数查看了各列的数据类型和占用空间大小。注意:info()函数只会在DataFrame中存在的列上运行,如果有一列数据全为空,info()函数就不会把它计算在内。
二、使用dtypes查看各列数据类型
除了使用info()函数之外,我们还可以使用dtypes属性查看DataFrame各列的数据类型。这种方法输出的结果更加简洁,仅包括列名和数据类型。
import pandas as pd df = pd.read_csv('data.csv') print(df.dtypes)
以上代码中,我们读取了名为"data.csv"的文件中的数据,并使用dtypes属性来查看各列的数据类型。输出结果如下:
Name object Age int64 Score float64 dtype: object
上述代码中,我们可以看到每列的名称以及相应的数据类型,如Name列的数据类型是object,Age列是int64,Score列是float64。
三、使用select_dtypes()函数选择某一类型的数据
在pandas库中,我们还可以使用select_dtypes()函数来选择一个DataFrame中的某一类型的数据。下面是一个简单的使用示例:
import pandas as pd df = pd.read_csv('data.csv') df.select_dtypes(include=['int64', 'float64'])
以上代码中,我们读取了名为"data.csv"的文件中的数据,并使用select_dtypes函数来选择所有的int64和float64数据类型的行和列。输出结果如下:
Age Score 0 20 90.0 1 30 85.0 2 25 92.5 3 32 87.5 4 28 89.0 5 22 89.5 6 24 92.0 7 26 88.0 8 27 90.5 9 29 91.0
上述代码中,我们使用select_dtypes()函数选择出了DataFrame中所有的int64和float64数据类型的行和列,并输出了选取的数据。
四、使用describe()函数查看数据的分布情况
在pandas库中,DataFrame对象还提供了一个describe()函数,用来查看所有数值列的汇总统计信息。describe()函数所列出的汇总统计信息包括:数量,平均数,标准差,最小值,第25%,中位数,第75%和最大值。下面是一个示例代码:
import pandas as pd df = pd.read_csv('data.csv') print(df.describe())
以上代码中,我们读取了名为"data.csv"的文件中的数据,并使用describe()函数来查看数值列的汇总统计信息。结果输出如下:
Age Score count 10.000000 10.000000 mean 26.300000 89.400000 std 3.096747 2.485124 min 20.000000 85.000000 25% 24.250000 88.250000 50% 26.500000 89.750000 75% 28.750000 91.125000 max 32.000000 92.500000
上述代码中,我们可以看到所有数值列的汇总统计信息。例如,在这个DataFrame中,Age列的平均值是26.3,最小值是20,最大值是32。
五、使用applymap()函数遍历所有元素并查看数据类型
在pandas库中,DataFrame对象提供了applymap()函数,可以用来遍历DataFrame中的每个元素,并对每个元素执行相应的操作。下面是一个示例代码:
import pandas as pd df = pd.read_csv('data.csv') print(df.applymap(type))
以上代码中,我们读取了名为"data.csv"的文件中的数据,并使用applymap()函数遍历所有元素,并打印出每个元素对应的数据类型。结果输出如下:
Name Age Score 01 2 3 4 5 6 7 8 9
上述代码中,我们使用applymap()函数遍历了所有的元素,并输出了每个元素对应的数据类型。我们可以看到,所有的数据类型除了数据里的字符(Name列)外,其他的都是int或者float类型。
六、总结
在Python的pandas库中,我们有很多方法来查看DataFrame数据的类型。通过以上的介绍,我们了解到了使用info()函数、dtypes属性、select_dtypes()函数、describe()函数以及applymap()函数分别来查看DataFrame数据类型的方法。使得我们在数据处理方面也可以掌握更多技能。