一、模糊匹配概述
字符串模糊匹配是指在一个文本中查找与另一个字符串相似的子串。相似程度可以基于多种算法进行评估,如编辑距离、n-gram、Jaro-Winkler等。
字符串模糊匹配具有很广的应用场景,如搜索引擎、数据清洗、自然语言处理等。在Python中,字符串模糊匹配也是一项基本功能,可以通过内置函数和第三方包实现。
二、基本函数
Python中的字符串有很多基本函数可以用于模糊匹配,如:
str.count(sub[, start[, end]])
str.find(sub[, start[, end]])
str.startswith(prefix[, start[, end]])
str.endswith(suffix[, start[, end]])
str.count(sub[, start[, end]]) 返回子串sub在str中出现的次数。
s = 'hello world'
count = s.count('l')
print(count) # 3
count = s.count('l', 0, 3)
print(count) # 1
str.find(sub[, start[, end]]) 返回子串sub在str中第一次出现的位置,如果没有找到则返回-1。
s = 'hello world'
index = s.find('world')
print(index) # 6
index = s.find('python')
print(index) # -1
str.startswith(prefix[, start[, end]]) 和 str.endswith(suffix[, start[, end]]) 分别用于判断字符串是否以指定前缀或后缀开头或结尾。
s = 'hello world'
flag = s.startswith('hello')
print(flag) # True
flag = s.endswith('python')
print(flag) # False
三、第三方包
除了上述Python内置函数外,还有许多第三方包可以用于字符串模糊匹配,如re、fuzzywuzzy等。
1. re包
re包是Python中正则表达式的标准库,可以用于强大的模式匹配。其中,re.search(pattern, string)函数可以用于搜索字符串中是否有与模式匹配的子串。
import re
s = 'hello world'
pattern = 'world'
match_obj = re.search(pattern, s)
if match_obj:
print(match_obj.start(), match_obj.end()) # 6 11
else:
print('not found')
2. fuzzywuzzy包
fuzzywuzzy包是一个基于编辑距离算法的模糊匹配工具,可以计算两个字符串之间的相似度。
在使用fuzzywuzzy包之前,需要先安装:pip install fuzzywuzzy
。
fuzzywuzzy包提供的主要函数如下:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
ratio = fuzz.ratio('hello', 'hell')
print(ratio) # 80
choices = ['hello', 'hey', 'hi']
result = process.extract('hi', choices, limit=2)
print(result) # [('hi', 100), ('hey', 67)]
fuzzywuzzy包中的fuzz.ratio(s1, s2)函数用于计算字符串s1和s2之间的相似度,返回一个0~100之间的整数,表示相似程度。
fuzzywuzzy包中的process.extract(query, choices, limit=5, scorer=fuzz.WRatio)函数可以用于在一组字符串中查找与指定字符串最相似的几个字符串。参数中,query为指定字符串,choices为一组字符串,limit为最多返回几个结果,scorer为自定义的相似度计算函数,默认为编辑距离算法。
四、结语
Python中的字符串模糊匹配功能是非常强大的,可以通过内置函数和第三方包实现不同的算法和需求。在实际应用中,应根据具体场景选择最适合的字符串模糊匹配方法,才能达到最好的效果。