1 Bloom Filter 介绍

布隆过滤器（Bloom Filter）是 Redis 4.0 版本提供的新功能，我们一般将它当做插件加载到 Redis 服务器中，给 Redis 提供强大的去重功能。
它是一种概率性数据结构，可用于判断一个元素是否存在于一个集合中。相比较之 Set 集合的去重功能，布隆过滤器空间上能节省 90% +，不足之处是去重率大约在 99% 左右，那就是有 1% 左右的误判率，这种误差是由布隆过滤器的自身结构决定的。

优点：空间效率和查询时间都比一般的算法要好的多
缺点：有一定的误识别率和删除困难

2 原理分析

布隆过滤器（Bloom Filter）是一个高空间利用率的概率性数据结构，由二进制向量（即位数组）和一系列随机映射函数（即哈希函数）两部分组成。
通过使用exists()来判断某个元素是否存在于自身结构中。当布隆过滤器判定某个值存在时，其实这个值只是有可能存在；当它说某个值不存在时，那这个值肯定不存在，这个误判概率大约在 1% 左右。
原理拆解如下：

在一个很长的二进制向量和一系列随机映射函数的基础上，将元素哈希成不同的位置，每个位置对应二进制向量中的一个比特位。
当加入一个元素时，采用 n 个相互独立的 Hash 函数计算key，然后将元素 Hash 映射的 n 个位置全部设置为 1。
检测 key 是否存在，仍然用 Hash 函数计算出这 n 个位置，如果元素key 存在于集合中，则对应的位置为1，否则为0。
如果n个位置均为1的话，可以确定元素key可能存在于集合中；如果有一个为0，那么元素的key一定不存在于集合中，下面会详细分析这句话。
这种判断机制会存在误判的可能，但它以较小的空间代价和极简的时间复杂度来近似解决集合交、并、差等操作。

2.1 添加元素步骤

当使用布隆过滤器添加 key 时，会使用不同的 hash 函数对 key 存储的元素值进行哈希计算，从而会得到多个哈希值。根据哈希值计算出一个整数索引值，将该索引值与位数组长度做取余运算，最终得到一个位数组位置，并将该位置的值变为 1。每个 hash 函数都会计算出一个不同的位置，然后把数组中与之对应的位置变为 1。这边可能出现元素碰撞的情况，比如位置3，a元素和b元素的hash计算位置一致，所以出现了碰撞。

2.2 判定元素是否存在步骤

如果我们要判定一个元素是否存在，需要如下步骤：

首先对给定元素key执行哈希计算，这样可以得到元素增加时的bit位数组位置
判断这些位置是否都为 1，如果其中有一个为 0，那么说明元素不存在
若全部位置都为 1，则说明元素有可能存在。

为啥说是可能存在呢，因为上面说过了，哈希函数出的结果会出现碰撞，所以布隆过滤器会存在误判。

如上图c，他的位置被其他元素的位置完全覆盖，即使c没有存储，对应位置上也被a和b的Hash函数设置为1，这时候就可能误判为c是有存储的。
有概率存在这样的 key，它们内容不同，但多次 Hash 后的 Hash 值都相同。

2.3 元素删除步骤

一般不会删除元素，我们上面说了，因为可能存在碰撞情况，所以也有可能存在误删除情况。

删除意味着需要将对应的 n 个 bits 位置设置为 0，其中有可能是其他元素对应的位。
比如图中的b删除之后，位置3的值也被设置为0，这样a也可能会被判定为不存在。

3 使用场景介绍

我们在遇到数据量大的时候，为了去重并避免大批量的重复计算，可以考虑使用 Bloom Filter 进行过滤。
具体常用的经典场景如下：

解决大流量下缓存穿透的问题。
过滤被屏蔽、拉黑、减少推荐的信息，一般你在浏览抖音或者百度App的时候，看到不喜欢的会设置减少推荐、屏蔽此类信息等，都可以采用这种原理设计。
各种名单过滤，使用布隆过滤器实现第一层的白名单或者黑名单过滤，可用于各种AB场景。

4 安装集成

如果是自己编译安装，可以从 github 下载，目前的latest 的 release 版本是 v2.4.5，下载地址如下：

https://github.com/RedisBloom/RedisBloom/releases/tag/v2.4.5

直接按照编译的方式进行安装：

# 解压文件：
tar -zxvf tar -zxvf RedisBloom-2.4.5.tar.gz
# 进入目录：
cd RedisBloom-2.4.5
# 执行编译命令，生成redi**loom.so 文件：
make
# 拷贝至指定目录：
cp redi**loom.so /usr/local/redis/RedisBloom-2.4.5/redi**loom.so

# 需要修改 redis.conf 文件，新增 loadmodule配置，并重启 Redis。
# 在redis配置文件里加入以下配置：
loadmodule /usr/local/redis/RedisBloom-2.4.5/redi**loom.so

# 配置完成后重启redis服务：
redis-server /usr/local/redis/RedisBloom-2.4.5/redis.conf

# 测试是否安装成功
127.0.0.1:6379> bf.add user brand
(integer) 1
127.0.0.1:6379> bf.exists user brand
(integer) 1

优点：空间效率和查询时间都比一般的算法要好的多
缺点：有一定的误识别率和删除困难

5 使用场景介绍

我们在遇到数据量大的时候，为了去重并避免大批量的重复计算，可以考虑使用 Bloom Filter 进行过滤。
具体常用的经典场景如下：

解决大流量下缓存穿透的问题，参考笔者这篇《一次缓存雪崩的灾难复盘》。
过滤被屏蔽、拉黑、减少推荐的信息，一般你在浏览抖音或者百度App的时候，看到不喜欢的会设置减少推荐、屏蔽此类信息等，都可以采用这种原理设计。
各种名单过滤，使用布隆过滤器实现第一层的白名单或者黑名单过滤，可用于各种AB场景。

下面以缓存穿透为解决目标进行讲解。

6 实战介绍

缓存穿透是指访问一个不存在的key，缓存不起作用，请求会穿透到DB，流量井喷时会导致DB挂掉。
比如我们查询用户的信息，程序会根据用户的编号去缓存中检索，如果找不到，再到数据库中搜索。如果你给了一个不存在的编号：XXXXXXXX，那么每次都比对不到，就透过缓存进入数据库。
这样风险很大，如果因为某些原因导致大量不存在的编号被查询，甚至被恶意伪造编号进行攻击，那将是灾难。
解决方案质疑就是在缓存之前在加一层 BloomFilter ：

把存在的key记录在BloomFilter中，在查询的时候先去 BloomFilter 去查询 key 是否存在，如果不存在则说明数据库和缓存都没有，就直接返回，
存在再走查缓存，投入数据库去查询，这样减轻了数据库的压力。

6.1 巨量查询信息案例解析

下面以火车票订购和查询为案例进行说明，如果火车票被恶意攻击，模拟了一模一样的火车票订单编号，那很可能通过大量的请求穿透过缓存层把数据库打雪崩了，所以使用布隆过滤器为服务提供一层保障。
具体的做法就是，我们在购买火车票成功的时候，把订单号的ID写入（异步或者消息队列的方式）到布隆过滤器中，保障后续的查询都在布隆过滤器中走一遍再进到缓存中去查询。火车票订单Id同步到 Bloom Filter 的步骤如下：

6.2 创建Bloom Filter的方式

创建 Bloom Filter 的语法如下：

# BF.RESERVE {key} {error_rate} {capacity} [EXPANSION {expansion}] [NONSCALING]
BF.RESERVE ticket_orders 0.01 1000000

key：布隆过滤器的名字，这边指的是创建一个名为 ticket_orders 的过滤器。
error_rate：期望的错误率，默认值为 0.1，值越低，需要的空间越大。就像我们上一节说的，空间越大碰撞的可能性越低。
capacity：初始的空间容量，默认值为 100，当实际元素的数量超过这个初始化容量时，碰撞的可能性越高，误判率也越高。
EXPANSION：可选参，数据达到初始容量后，布隆过滤器会自动创建一个子过滤器，大小为上一个过滤器乘以 expansion。expansion 的默认值为 2，也就是说默认扩容2倍；
NONSCALING：可选参，指的是数据达到初始容量后，不会扩容过滤器，并抛出异常（(error) ERR non scaling filter is full）。

而上面那句命令是，通过BF.RESERVE命令手动创建一个名字为 ticket_orders，错误率为 0.01 ，初始容量为 1000000 的布隆过滤器。
这边需要注意的一些点是：

error_rate 越小，对碰撞的容忍度越小，需要的存储空间就越大。如果允许一定比例的不准确，对精确度要求不高的场景，error_rate 可以设的稍大一点。
capacity 设置的过大，会浪费存储空间，设置过小，准确度不高。所以评估的时候需要精准一点，既要避免浪费空间也要保证准确比例。

6.3 添加火车票订单Id到Bloom Filter

# BF.ADD {key}  {value ... }

# 添加单个订单号
BF.ADD ticket_orders 2023061008795
(integer) 1

# 添加多个订单号
BF.MADD ticket_orders 2023061008796 2023061008797 2023061008798
1) (integer) 1
2) (integer) 1
3) (integer) 1

以上的语句是将已经订好的车票订单号存储到Bloom Filter中，包括一次存储单个和一次存储多个。

6.4 判断火车票订单Id是否存在

# BF.EXISTS {key} {value} ，存在的话返回 1，不存在返回 0
BF.EXISTS ticket_orders 2023061008795
(integer) 1

# 批量判断多个值是否存在于布隆过滤器，语句如下：
BF.MEXISTS ticket_orders 2023061008796 2023061008797 2023061008798
1) (integer) 0
2) (integer) 1
3) (integer) 0

BF.EXISTS 判断一个元素是否存在于 Bloom Filter中，返回值 = 1 表示存在，返回值 = 0 表示不存在。可以一次性判断单个元素，或者一次性判断多个元素。

6.5 Review已建的布隆过滤器列表

# 使用 BF.INFO {key} 语法查看

BF.INFO ticket_orders
 1) Capacity
 2) (integer) 1000000
 3) Size
 4) (integer) 3
 5) Number of filters
 6) (integer) 1
 7) Number of items inserted
 8) (integer) 3
 9) Expansion rate
10) (integer) 2

返回值解析：
Capacity：预设容量，我们前面设置了1000000。
Size：实际占用情况，我们前面设置了3个值：2023061008796、 2023061008797、 2023061008798。
Number of filters：过滤器的层数。
Number of items inserted：实际已插入的元素数量。
Expansion rate：子过滤器扩容的系数，咱们前面创建的时候未设值，所以这边是默认 2。

综上，我们通过 BF.RESERVE、BF.ADD、BF.EXISTS、BF.INFO 等几个指令就能实现布隆过滤器的建设，避免缓存穿透的情况发生。
因为你查询缓存的时候，必然你先到Bloom Filter中先过滤一次，这样就不会因为无效的key把缓存打穿。

7程序实现说明

Spring Boot版本： 2.5.x。

7.1 添加 Redission Maven 依赖

如果实际情况可以使用更高版本


  org.redisson
  redisson-spring-boot-starter
  3.17.1

7.2 Spring boot Yaml中的 Redission 配置

spring:
  application:
    name: redission
  redis:
    cluster:
      nodeAddresses: [
          "redis://127.0.0.1:8000",
          "redis://127.0.0.1:8001",
          "redis://127.0.0.1:8002",
          "redis://127.0.0.1:8003",
          "redis://127.0.0.1:8004",
          "redis://127.0.0.1:8005"
      ]
    password: ********
    single:
      address: "redis://127.0.0.1:6379"
      database: 6

7.3 创建布隆过滤器相关

@Service
public class BloomFilterService {

    @Autowired
    private RedissonClient redissonClient;
	
    /**
     * 创建布隆过滤器
     * @param filterKey 过滤器名称，等同上面的key
     * @param expectedCapacity  预计元素容量，等同于上面的capacity
     * @param falseRate 允许的误判率，等同于上面的error_rate
     * @param 
     * @return
     */
    public  RBloomFilter create(String filterKey, long expectedCapacity, double falseRate) {
	    // 集群模式
	    RClusteredBloomFilter bloomFilter = redissonClient.getClusteredBloomFilter(filterKey);
        // 以下是单实例模式
		// RBloomFilter bloomFilter = redissonClient.getBloomFilter(filterKey);
        bloomFilter.tryInit(expectedCapacity, falseRate);
        return bloomFilter;
    }
}

7.4 测试实现

    @Autowired
    private BloomFilterService bloomFilterService;

    @Test
    public void testBloomFilter() {
        // 预计元素容量 1000000
        long expectedCapacity = 1000000L;
        // 错误率
        double falseRate = 0.01;
        RBloomFilter bloomFilter = bloomFilterService.create("ticket_orders", expectedCapacity, falseRate);

        // 元素增加测试并输出统计
        for (long idx = 0; idx < expectedCapacity; idx++) {
            bloomFilter.add(idx);
        }
        long eleCount = bloomFilter.count();
        log.info("eleCount = {}.", elementCount);
    }

8总结

本篇介绍了布隆过滤器的几种实现场景。
并以火车票订单信息查询为案例进行说明，如何使用布隆过滤器避免缓存穿透，避免被恶意攻击。

为帮助开发者们提升面试技能、有机会入职BATJ等大厂公司，特别制作了这个专辑——这一次整体放出。

大致内容包括了： Java 集合、JVM、多线程、并发编程、设计模式、Spring全家桶、Java、MyBatis、ZooKeeper、Dubbo、Elasticsearch、Memcached、MongoDB、Redis、MySQL、RabbitMQ、Kafka、Linux、Netty、Tomcat等大厂面试题等、等技术栈！

欢迎大家关注公众号【Java烂猪皮】，回复【666】，获取以上最新Java后端架构VIP学习资料以及视频学习教程，然后一起学习，一文在手，面试我有。

每一个专栏都是大家非常关心，和非常有价值的话题，如果我的文章对你有所帮助，还请帮忙点赞、好评、转发一下，你的支持会激励我输出更高质量的文章，非常感谢！

聊聊Redis布隆过滤器(原理+实践篇)

1 Bloom Filter 介绍

2 原理分析

2.1 添加元素步骤

2.2 判定元素是否存在步骤

2.3 元素删除步骤

3 使用场景介绍

4 安装集成

5 使用场景介绍

6 实战介绍

6.1 巨量查询信息案例解析

6.2 创建Bloom Filter的方式

6.3 添加火车票订单Id到Bloom Filter

6.4 判断火车票订单Id是否存在

6.5 Review已建的布隆过滤器列表

7程序实现说明

7.1 添加 Redission Maven 依赖

7.2 Spring boot Yaml中的 Redission 配置

7.3 创建布隆过滤器相关

7.4 测试实现

8总结

相关推荐

取消回复欢迎你发表评论:

生产系统数据库操作规范(2):（数据库生产库是什么意思）

Redis客户端 Jedis 与 Lettuce

高并发架构系列:Redis并发竞争key的解决方案详解

redis如何防止并发（redis如何防止高并发）

开源推荐:如何实现的一个高性能 Redis 服务器

redis安装与调优部署文档(WinServer)

Redis 入门 - 安装最全讲解(Windows、Linux、Docker)

一文带你了解 Redis 的发布与订阅的底层原理

Redis如何应对并发访问（redis控制并发量）

Java SE Development Kit 8u441下载地址【windows版本】

聊聊Redis布隆过滤器(原理+实践篇)

1 Bloom Filter 介绍

2 原理分析

2.1 添加元素步骤

2.2 判定元素是否存在步骤

2.3 元素删除步骤

3 使用场景介绍

4 安装集成

5 使用场景介绍

6 实战介绍

6.1 巨量查询信息案例解析

6.2 创建Bloom Filter的方式

6.3 添加火车票订单Id到Bloom Filter

6.4 判断火车票订单Id是否存在

6.5 Review已建的布隆过滤器列表

7程序实现说明

7.1 添加 Redission Maven 依赖

7.2 Spring boot Yaml中的 Redission 配置

7.3 创建布隆过滤器相关

7.4 测试实现

8总结

相关推荐

取消回复欢迎 你 发表评论:

生产系统数据库操作规范(2):（数据库生产库是什么意思）

Redis客户端 Jedis 与 Lettuce

高并发架构系列:Redis并发竞争key的解决方案详解

redis如何防止并发（redis如何防止高并发）

开源推荐:如何实现的一个高性能 Redis 服务器

redis安装与调优部署文档(WinServer)

Redis 入门 - 安装最全讲解(Windows、Linux、Docker)

一文带你了解 Redis 的发布与订阅的底层原理

Redis如何应对并发访问（redis控制并发量）

Java SE Development Kit 8u441下载地址【windows版本】

取消回复欢迎你发表评论: