fuzzywuzzy简介与应用

发布时间:2023-05-18

一、什么是fuzzywuzzy

fuzzywuzzy是一个Python库,用于模糊字符串匹配。它根据Levenshtein距离度量字符串之间的相似度,并提供了从简单比较到复杂比较的多个匹配函数。 在文本数据处理中,往往需要对文本相似性进行检测和匹配。fuzzywuzzy库便成为了Python处理文本相似性问题的一个重要工具。它可应用于多个领域,如信息提取、文本后处理、数据清洗和数据挖掘等。

二、fuzzywuzzy函数

fuzzywuzzy提供了多个函数,每个函数均提供了不同的字符串匹配策略。下面我们将介绍其中几个最常用的函数。

1. fuzz.ratio()

fuzz.ratio()函数计算两个字符串的简单比率,即它们的相似程度。返回的值在0~100间,值越高,表示字符串越相似。

from fuzzywuzzy import fuzz
s1 = "Python programming language"
s2 = "Python coding language"
ratio = fuzz.ratio(s1, s2)
print("fuzz.ratio:", ratio)

输出结果为:fuzz.ratio: 85,表示两个字符串的相似度为85%。

2. fuzz.partial_ratio()

fuzz.partial_ratio()函数是将较小字符串与较大字符串中的每个子串进行匹配,并返回匹配度最高的子串及其相似度。与fuzz.ratio()相比,fuzz.partial_ratio()减少了字符串的大小比较,更加适合匹配嵌入在其他文本中的子字符串。

from fuzzywuzzy import fuzz
s1 = "build your own website using Python"
s2 = "Python website builder"
partial_ratio = fuzz.partial_ratio(s1, s2)
print("fuzz.partial_ratio:", partial_ratio)

输出结果为:fuzz.partial_ratio: 71,表示两个字符串的相似度为71%。

3. fuzz.token_sort_ratio()

fuzz.token_sort_ratio()函数去除字符串中的空格、特殊字符、单词重新排序后,再计算两个字符串之间的匹配程度。此函数处理的字符串语法结构不需要与专门术语完全一致,而只需相对接近即可。

from fuzzywuzzy import fuzz
s1 = "Python programming language"
s2 = "programming language in Python"
token_sort_ratio = fuzz.token_sort_ratio(s1, s2)
print("fuzz.token_sort_ratio:", token_sort_ratio)

输出结果为:fuzz.token_sort_ratio: 100,表示两个字符串的相似度为100%。

三、fuzzywuzzy使用示例

下面我们通过一个实际的应用场景来介绍如何使用fuzzywuzzy库。 假设我们现在有一份公司员工工资信息的表格,其中包含每位员工的姓名和ID, 薪资信息等字段。但是由于数据录入时出现了错误,表格中可能存在姓名或ID信息匹配错误的情况,我们需要使用fuzzywuzzy来对其进行匹配和修复。

import pandas as pd
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# 读取表格数据
df = pd.read_csv("employee_salary.csv")
names = df['Name'].tolist()
# 匹配字符串
def match_name(query, choices, limit=3):
    results = process.extract(query, choices, limit=limit)
    return results
# 保存匹配结果
new_names = []
for name in names:
    result = match_name(name, names)
    if result[0][1] >= 80:
        new_names.append(result[0][0])
    else:
        new_names.append(name)
# 更新数据表
df['Name'] = new_names
df.to_csv('employee_salary_new.csv', index=False)

上述代码中,我们首先读取了原始数据文件,并提取每位员工的姓名。然后定义了一个匹配函数match_name(),用于将每个员工姓名与整个数据集中的所有姓名逐一比较,得出其最佳匹配结果。 最后,我们根据员工姓名匹配的结果,对数据表中的姓名进行更新,将匹配结果写入一个新的CSV文件中。

总结

本文介绍了Python中文本相似性匹配工具fuzzywuzzy的基本概念、函数和示例应用。fuzzywuzzy是一个功能强大且易于使用的Python库,可用于处理多个领域的文本相似性匹配问题。