Python Pandas Merge详解

一、引言

Pandas 是一个开源的 Python 数据分析库，提供了高效的数据操作接口。其中，merge() 函数是 Pandas 中一个非常有用的功能，它能够将两个 DataFrame 对象合并成一个新的 DataFrame。在本篇文章中，我们将详细介绍 merge() 函数的用法和应用场景。

二、基本用法

1. merge() 函数语法

merge(left, right, how='inner', on=None, left_on=None, right_on=None,
      left_index=False, right_index=False, sort=False,
      suffixes=('_x', '_y'), copy=True, indicator=False,
      validate=None)

注：left 和 right 表示要合并的两个 DataFrame 对象，how 表示合并方式，on 表示连接键，left_on 和 right_on 表示左右 DataFrame 要连接的列名，left_index 和 right_index 表示是否按照索引进行合并，suffixes 表示重叠的列的后缀名等等。

2. merge() 函数用法举例

我们通过以下实例来讲解 merge() 函数的基本用法。

例如：

import pandas as pd

# 构造左侧 DataFrame 对象
df_left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3']})

# 构造右侧 DataFrame 对象
df_right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                   'C': ['C0', 'C1', 'C2', 'C3'],
                   'D': ['D0', 'D1', 'D2', 'D3']})

# 使用 merge() 函数进行合并
df_merge = pd.merge(df_left, df_right, on='key')

# 显示合并后的 DataFrame 对象
print(df_merge)

结果输出：

    key   A   B   C   D
0   K0   A0  B0  C0  D0
1   K1   A1  B1  C1  D1
2   K2   A2  B2  C2  D2
3   K3   A3  B3  C3  D3

这里，我们通过对左侧 DataFrame 对象 df_left 和右侧 DataFrame 对象 df_right 的 key 列进行连接，得到了一个新的 DataFrame 对象 df_merge。

三、合并方式

1. inner

inner（默认情况下）：保留两个表中都存在的键。

例如：

import pandas as pd

# 构造左侧 DataFrame 对象
df_left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3']})

# 构造右侧 DataFrame 对象
df_right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                   'C': ['C0', 'C1', 'C4', 'C5'],
                   'D': ['D0', 'D1', 'D4', 'D5']})

# 使用 merge() 函数进行合并
df_merge_inner = pd.merge(df_left, df_right, on='key')

# 显示内连接后的 DataFrame 对象
print(df_merge_inner)

输出结果：

   key   A   B   C   D
0   K0  A0  B0  C0  D0
1   K1  A1  B1  C1  D1

由于此时左右 DataFrame 对象的 key 列（‘K2’和‘K3’）并不相同，所以没有在合并后的结果中出现。

2. outer

outer：保留两个表中所有的键。

例如：

import pandas as pd

# 构造左侧 DataFrame 对象
df_left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3']})

# 构造右侧 DataFrame 对象
df_right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                   'C': ['C0', 'C1', 'C4', 'C5'],
                   'D': ['D0', 'D1', 'D4', 'D5']})

# 使用 merge() 函数进行合并
df_merge_outer = pd.merge(df_left, df_right, on='key', how='outer')

# 显示外连接后的 DataFrame 对象
print(df_merge_outer)

输出结果：

    key  A    B    C    D
0   K0  A0   B0   C0   D0
1   K1  A1   B1   C1   D1
2   K2  A2   B2  NaN  NaN
3   K3  A3   B3  NaN  NaN
4   K4 NaN  NaN   C4   D4
5   K5 NaN  NaN   C5   D5

由于此时左右 DataFrame 对象的 key 列（‘K2’和‘K3’）并不相同，所以在合并后的结果中将会出现缺失值。

3. left

left：以左侧 DataFrame 为基础，保留左侧 DataFrame 中所有的键。

例如：

import pandas as pd

# 构造左侧 DataFrame 对象
df_left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3']})

# 构造右侧 DataFrame 对象
df_right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                   'C': ['C0', 'C1', 'C4', 'C5'],
                   'D': ['D0', 'D1', 'D4', 'D5']})

# 使用 merge() 函数进行合并
df_merge_left = pd.merge(df_left, df_right, on='key', how='left')

# 显示左连接后的 DataFrame 对象
print(df_merge_left)

输出结果：

   key   A   B    C    D
0  K0  A0  B0   C0   D0
1  K1  A1  B1   C1   D1
2  K2  A2  B2  NaN  NaN
3  K3  A3  B3  NaN  NaN

由于此时左侧 DataFrame 对象的 key 列中，只有‘K0’和‘K1’与右侧 DataFrame 对象相同，所以在合并后的结果中，‘K2’和‘K3’对应的列为空。

4. right

right：以右侧 DataFrame 为基础，保留右侧 DataFrame 中所有的键。

例如：

import pandas as pd

# 构造左侧 DataFrame 对象
df_left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3']})

# 构造右侧 DataFrame 对象
df_right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                   'C': ['C0', 'C1', 'C4', 'C5'],
                   'D': ['D0', 'D1', 'D4', 'D5']})

# 使用 merge() 函数进行合并
df_merge_right = pd.merge(df_left, df_right, on='key', how='right')

# 显示右连接后的 DataFrame 对象
print(df_merge_right)

输出结果：

   key    A    B   C   D
0  K0   A0   B0  C0  D0
1  K1   A1   B1  C1  D1
2  K4  NaN  NaN  C4  D4
3  K5  NaN  NaN  C5  D5

由于此时右侧 DataFrame 对象的 key 列中，只有‘K0’和‘K1’与左侧 DataFrame 对象相同，所以在合并后的结果中，‘K4’和‘K5’对应的列为空。

四、合并键

在 merge() 函数中，可以通过连接键将两个 DataFrame 对象中的数据进行合并。连接键是指在合并过程中用来唯一标识每个记录或行的一个或多个列。在连接键相同的情况下，merge() 函数将会把相应的列合并成一个。

1. 普通列连接

在默认情况下，merge() 函数会以两个 DataFrame 对象中列名相同的列作为连接键，即进行列连接。例如：

import pandas as pd

# 构造左侧 DataFrame 对象
df_left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3']})

# 构造右侧 DataFrame 对象
df_right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                   'C': ['C0', 'C1', 'C4', 'C5'],
                   'D': ['D0', 'D1', 'D4', 'D5']})

# 使用 merge() 函数进行合并
df_merge = pd.merge(df_left, df_right, on='key')

# 显示合并后的 DataFrame 对象
print(df_merge)

输出结果：

   key   A   B   C   D
0  K0   A0  B0  C0  D0
1  K1   A1  B1  C1  D1

2. 多列连接

当两个 DataFrame 对象中需要连接的列名不同时，可以通过 left_on 和 right_on 参数指定。例如：

import pandas as pd

# 构造左侧 DataFrame 对象
df_left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                   'key2': ['K0', 'K1', 'K0', 'K1'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3']})

# 构造右侧 DataFrame 对象
df_right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                   'key2': ['K0', 'K0', 'K0', 'K0'],
                   'C': ['C0', 'C1', 'C2', 'C3'],
                   'D': ['D0', 'D1', 'D2', 'D3']})

# 使用 merge() 函数进行多列连接
df_merge_mul = pd.merge(df_left, df_right, on=['key1', 'key2'])

# 显示合并后的 DataFrame 对象
print(df_merge_mul)

输出结果：

  key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

Python Pandas Merge详解

一、引言

二、基本用法

1. merge() 函数语法

2. merge() 函数用法举例

三、合并方式

1. inner

2. outer

3. left

4. right

四、合并键

1. 普通列连接

2. 多列连接

Python Pandas Merge详解

python技巧笔记（python自学笔记）

python笔记二（2python）

最新python学习笔记3,python基础笔记

包含python使用笔记24的词条

python使用笔记23的简单介绍

python学习之笔记（python的笔记）

python笔记第六天,python第六周笔记

python画图笔记（python画图作业）

Python merge函数解析

我的python笔记06（Python）

python的用法笔记本（笔记本学python）

python自带pandas吗,python pandas用

python方法笔记,python基础教程笔记

Python pandas的多方面应用

pandas合并列详解

python学习笔记一之,python入门笔记

python基础学习整理笔记,Python课堂笔记

python数据分析学习笔记1（python数据分析基础和利

我的python学习基础笔记,python自学笔记

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

Python Pandas Merge详解

一、引言

二、基本用法

1. merge() 函数语法

2. merge() 函数用法举例

三、合并方式

1. inner

2. outer

3. left

4. right

四、合并键

1. 普通列连接

2. 多列连接

Python Pandas Merge详解

python技巧笔记（python自学笔记）

python笔记二（2python）

最新python学习笔记3,python基础笔记

包含python使用笔记24的词条

python使用笔记23的简单介绍

python学习之笔记（python的笔记）

python笔记第六天,python第六周笔记

python画图笔记（python画图作业）

Python merge函数解析

我的python笔记06（Python）

python的用法笔记本（笔记本学python）

python自带pandas吗,python pandas用

python方法笔记,python基础教程笔记

Python pandas的多方面应用

pandas合并列详解

python学习笔记一之,python入门笔记

python基础学习整理笔记,Python课堂笔记

python数据分析学习笔记1（python数据分析基础和利

我的python学习基础笔记,python自学笔记

人机检测，请谅解