一、布隆过滤器介绍
布隆过滤器,又称为Bloom Filter,是1970年由布隆(Burton Howard Bloom)提出的一种空间效率极高的随机数据结构,用于判断一个元素是否在集合中。布隆过滤器可以用于快速判断一个元素是否在一个大集合中,其优点在于空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。由于误判率可以控制在一定范围内,并且布隆过滤器不需要存储元素本身,而是存储元素的哈希值,因此在一些需要过滤重复、查询速度要求较高的场景中被广泛使用。
二、布隆过滤器原理
布隆过滤器的核心思想是用一个二进制向量和一系列哈希函数来表示一个集合,在添加元素时,将元素进行多次哈希得到一系列哈希值,然后将对应的二进制向量上的元素都置为1。因为不同元素可能哈希到相同的位置,所以可能会有哈希冲突,但只要哈希函数设置得合理,冲突的概率非常小,可以通过控制二进制向量的大小和哈希函数的个数来控制误识率。
在查找元素时,将元素进行多次哈希,然后查询相应的二进制向量上的元素是否都为1,如果不都为1则元素一定不在集合中,如果都为1,则元素可能在集合中,需要进一步检查。
三、布隆过滤器代码示例
class BloomFilter: def __init__(self, size, hash_num): self.size = size self.hash_num = hash_num self.bit_array = [0] * self.size def add(self, s): for seed in range(self.hash_num): result = self.hash(s, seed) self.bit_array[result] = 1 def lookup(self, s): for seed in range(self.hash_num): result = self.hash(s, seed) if self.bit_array[result] == 0: return "Nope" return "Maybe" def hash(self, s, seed): result = 0 for c in s: result = result * seed + ord(c) return result % self.size
四、布隆过滤器应用场景
布隆过滤器广泛应用于一些需要过滤重复、查询速度要求较高的场景中。下面是一些常见的应用场景:
- 网页黑名单查找:将所有已经确定是恶意网站的 URL 存储在布隆过滤器中,每当一个新的 URL 被访问时,只需要检查是否在布隆过滤器中即可。
- 爬虫去重:在爬取网站时,经常会遇到相同的重复网页,可以将网页的 URL 存储在布隆过滤器中,每当一个新的 URL 被爬取时,先检查该 URL 是否在布隆过滤器中,如果不在,则将 URL 存储在布隆过滤器中,并进行相应的处理。
- 消息路由:在分布式系统中,经常需要根据某些条件将消息路由到不同的节点处理,可以将条件哈希成一个数字,然后通过布隆过滤器来判断该数字是否在某个节点内,从而实现消息的路由功能。
五、总结
布隆过滤器是一种空间效率极高、误识率可控的随机数据结构,通过在二进制向量中存储元素的哈希值来判断元素是否在集合中。布隆过滤器在一些需要过滤重复、查询速度要求较高的场景中被广泛使用,如网页黑名单查找、爬虫去重、消息路由等。在使用布隆过滤器时,需要根据误识率和数据集大小进行相应的设置,避免误判和漏判。