在日常开发中,我们常常需要对文本处理进行操作。其中一个常见的需求就是统计某一个文本中某一个单词或者词组出现的次数。常规的做法是通过遍历整个文档,一个一个字符串的比对,但是这样做不仅效率低下,而且代码难以维护。
一、Counter函数简化单词出现次数统计
Python内置了最常使用的库collections,其中有一个叫做Counter的函数,我们可以用它来简化单词出现次数的统计。
from collections import Counter input_str = 'I am so happy with my new computer. It is so cool!' words = input_str.split() counts = Counter(words) print(counts)
运行结果:
Counter({'so': 2, 'I': 1, 'am': 1, 'happy': 1, 'with': 1, 'my': 1, 'new': 1, 'computer.': 1, 'It': 1, 'is': 1, 'cool!': 1})
我们可以看到,使用Counter函数可以方便地对单词出现次数进行统计。
二、使用字典改进Counter函数
虽然使用Counter函数可以方便地进行单词出现次数的统计,但是它也有一些局限性。例如,它无法处理一些需要进行过滤或者转换的情况。接下来我们将介绍一种更加灵活的单词出现次数统计方式,使用字典。
input_str = 'I am so happy with my new computer. It is so cool!' words = input_str.split() counts = {} for word in words: if word in counts: counts[word] += 1 else: counts[word] = 1 print(counts)
我们可以看到,我们通过遍历初始字符串中的每一个单词,然后通过字典进行存储和统计。这种方式相比较于Counter函数而言,更加灵活,可以满足更多的需求。
三、结语
本文介绍了两种优雅的方法对文本中单词出现次数进行统计。使用Python内置函数Counter可以非常方便地进行简单的操作,而使用自定义的字典方法则可以适应更加复杂的需求。在实际的开发中,我们可以根据具体情况选择合适的方法,提高代码的效率和可读性。