Dataframe初始化详解

发布时间:2023-05-21

一、Dataframe是什么

Dataframe是一个二维标签数组,它含有不同类型的列,其中每一列可以是一个不同的值类型,如浮点、整数或字符串等。Dataframe常被用作数据科学和机器学习中的主要数据结构。 Dataframe中的数据可以通过多种方式初始化,本文将对这些初始化方式进行详细说明和演示。

二、使用列表初始化Dataframe

利用列表初始化Dataframe是一种最基础的方式。可以通过传入由列表构成的字典来初始化Dataframe,字典的key表示列名,value则为相应的列表。

import pandas as pd
dict_data = {'name': ['David', 'Tina', 'Lucy', 'Jone', 'Tom'],
             'age': [18, 19, 20, 21, 25],
             'gender': ['M', 'F', 'F', 'F', 'M']}
df = pd.DataFrame(dict_data)
print(df.head())

结果将会输出:

    name  age gender
0  David   18      M
1   Tina   19      F
2   Lucy   20      F
3   Jone   21      F
4    Tom   25      M

三、使用NumPy数组初始化Dataframe

另一种初始化Dataframe的方法是利用NumPy数组,其中每列会用数组的列来构建Dataframe,例如:

import numpy as np
import pandas as pd
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12], [13, 14, 15]])
df = pd.DataFrame(arr, columns=['A', 'B', 'C'])
print(df.head())

结果将会输出:

    A   B   C
0   1   2   3
1   4   5   6
2   7   8   9
3  10  11  12
4  13  14  15

四、读取CSV数据文件初始化Dataframe

使用pandas读取CSV文件来初始化Dataframe是最常用的方法之一。以下示例用pandas从CSV文件中读取并初始化一个Dataframe:

import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())

结果将会输出读取的CSV文件的前5行数据。

五、使用字典数组初始化Dataframe

最后一种方法是使用字典构成的数组。每个字典包含Dataframe中的一行数据,字典的key表示列名,value则为相应的值。

import pandas as pd
data = [{'name': 'David', 'age': 18, 'gender': 'M'},
        {'name': 'Tina', 'age': 19, 'gender': 'F'},
        {'name': 'Lucy', 'age': 20, 'gender': 'F'},
        {'name': 'John', 'age': 21, 'gender': 'F'},
        {'name': 'Tom', 'age': 22, 'gender': 'M'}]
df = pd.DataFrame(data)
print(df.head())

结果将会输出:

    name  age gender
0  David   18      M
1   Tina   19      F
2   Lucy   20      F
3   John   21      F
4    Tom   22      M

六、总结

Dataframe是进行数据科学和机器学习的必要数据结构之一。本文介绍了Dataframe的基础知识以及它的多种初始化方法。上面展示的示例代码中,演示了使用列表、NumPy数组、CSV文件和字典数组初始化Dataframe的方法。在实际运用过程中,应按照实际情况掌握每种方法,并且熟练掌握常用的Dataframe函数进行数据处理。