百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

字节跳动专家:Redis布隆过滤器应用,内存节省80%!

mhr18 2025-03-19 14:19 24 浏览 0 评论

在大规模系统架构中,判断一个元素是否存在是个老大难问题。存MySQL?数据量大了扛不住。直接放Redis?内存成本太高。布隆过滤器就是为解决这类问题而生的。它用很少的内存就能判断一个元素是否存在,虽然有那么一丢丢误判率,但在很多场景下完全够用。

布隆过滤器是啥玩意

说白了,布隆过滤器就是个超级大的位图。当你想判断一个元素是否存在时,它会用几个哈希函数把这个元素转成几个数字,然后在位图上把对应位置标记为1。

import mmh3  # MurmurHash3哈希算法

class BloomFilter:
    def __init__(self, size, hash_count):
        self.size = size
        self.hash_count = hash_count
        self.bit_array = [0] * size
    
    def add(self, item):
        for seed in range(self.hash_count):
            index = mmh3.hash(str(item), seed) % self.size
            self.bit_array[index] = 1

在Redis里整一个

Redis 4.0后直接提供了布隆过滤器模块,不用自己造轮子了。装上玩玩:

from redis import Redis
from redis.commands.bf.commands import BFBloom

redis_client = Redis(host='localhost', port=6379)
bloom = BFBloom(redis_client)

# 创建过滤器
bloom.create('users', 0.01, 10000)  # 误判率0.01,预计元素数量10000

# 添加元素
bloom.add('users', 'user_123')

# 判断元素是否存在
exists = bloom.exists('users', 'user_123')

温馨提示:误判率设置要慎重,越低占用内存越大。一般0.01就够用了。

实战案例:刷单检测

之前遇到个业务场景,要判断用户是否重复下单。传统做法是把所有订单号放Redis,结果吃了8G内存。上了布隆过滤器后,内存用量直接降到1.6G。

# 创建订单布隆过滤器
bloom.create('orders', 0.01, 1000000)

def check_duplicate_order(order_id):
    if bloom.exists('orders', order_id):
        return "疑似重复订单"
    
    bloom.add('orders', order_id)
    return "正常订单"

坑都在这了

用布隆过滤器踩过不少坑,给你们指出来:

  1. 删除问题:布隆过滤器没法删除元素。想删除?重建一个吧。
# 错误示范
bloom.delete('orders', 'order_123')  # 这操作压根不存在
  1. 扩容问题:容量满了就得重建,不支持动态扩容。
# 容量估算
items = 1000000  # 预计元素数量
error_rate = 0.01  # 可接受的误判率
size = int(-items * math.log(error_rate) / (math.log(2) ** 2))
  1. 数据倾斜:哈希函数选得不好,可能导致位图某些位置特别容易被占用。

内存优化的奥秘

为啥布隆过滤器能省这么多内存?假设存100万个订单号:

  • 直接用Redis Set:每个订单号20字节,总共19MB
  • 用布隆过滤器:误判率0.01时只需要1.2MB

来看内存计算公式:

# 计算最优位数组大小
def get_optimal_params(n, p):
    """
    n: 预计元素数量
    p: 期望误判率
    """
    m = -n * math.log(p) / (math.log(2) ** 2)  # 位数组大小
    k = m / n * math.log(2)  # 哈希函数个数
    return int(m), int(k)

布隆过滤器真是个内存省钱利器,关键是用对场景:

  • 适合:验证码判重、URL去重、垃圾邮件过滤
  • 不适合:需要精确查询、需要删除的场景

实际用下来,布隆过滤器在处理大规模数据时简直是神器。不过记得提前规划好容量,要不然扩容重建很痛苦。

代码上线前,得把误判率和容量都测试到位。要不然上了生产才发现内存不够用,那可就尴尬了。

相关推荐

Redis合集-使用benchmark性能测试

采用开源Redis的redis-benchmark工具进行压测,它是Redis官方的性能测试工具,可以有效地测试Redis服务的性能。本次测试使用Redis官方最新的代码进行编译,详情请参见Redis...

Java简历总被已读不回?面试挂到怀疑人生?这几点你可能真没做好

最近看了几十份简历,发现大部分人不是技术差,而是不会“卖自己”——一、简历死穴:你写的不是经验,是岗位说明书!反面教材:ד使用SpringBoot开发项目”ד负责用户模块功能实现”救命写法:...

redission YYDS(redission官网)

每天分享一个架构知识Redission是一个基于Redis的分布式Java锁框架,它提供了各种锁实现,包括可重入锁、公平锁、读写锁等。使用Redission可以方便地实现分布式锁。red...

从数据库行锁到分布式事务:电商库存防超卖的九重劫难与破局之道

2023年6月18日我们维护的电商平台在零点刚过3秒就遭遇了严重事故。监控大屏显示某爆款手机SKU_IPHONE13_PRO_MAX在库存仅剩500台时,订单系统却产生了1200笔有效订单。事故复盘发...

SpringBoot系列——实战11:接口幂等性的形而上思...

欢迎关注、点赞、收藏。幂等性不仅是一种技术需求,更是数字文明对确定性追求的体现。在充满不确定性的网络世界中,它为我们建立起可依赖的存在秩序,这或许正是技术哲学最深刻的价值所在。幂等性的本质困境在支付系...

如何优化系统架构设计缓解流量压力提升并发性能?Java实战分享

如何优化系统架构设计缓解流量压力提升并发性能?Java实战分享在高流量场景下。首先,我需要回忆一下常见的优化策略,比如负载均衡、缓存、数据库优化、微服务拆分这些。不过,可能还需要考虑用户的具体情况,比...

Java面试题: 项目开发中的有哪些成长?该如何回答

在Java面试中,当被问到“项目中的成长点”时,面试官不仅想了解你的技术能力,更希望看到你的问题解决能力、学习迭代意识以及对项目的深度思考。以下是回答的策略和示例,帮助你清晰、有说服力地展示成长点:一...

互联网大厂后端必看!Spring Boot 如何实现高并发抢券逻辑?

你有没有遇到过这样的情况?在电商大促时,系统上线了抢券活动,结果活动刚一开始,服务器就不堪重负,出现超卖、系统崩溃等问题。又或者用户疯狂点击抢券按钮,最后却被告知无券可抢,体验极差。作为互联网大厂的后...

每日一题 |10W QPS高并发限流方案设计(含真实代码)

面试场景还原面试官:“如果系统要承载10WQPS的高并发流量,你会如何设计限流方案?”你:“(稳住,我要从限流算法到分布式架构全盘分析)…”一、为什么需要限流?核心矛盾:系统资源(CPU/内存/数据...

Java面试题:服务雪崩如何解决?90%人栽了

服务雪崩是指微服务架构中,由于某个服务出现故障,导致故障在服务之间不断传递和扩散,最终造成整个系统崩溃的现象。以下是一些解决服务雪崩问题的常见方法:限流限制请求速率:通过限流算法(如令牌桶算法、漏桶算...

面试题官:高并发经验有吗,并发量多少,如何回复?

一、有实际高并发经验(建议结构)直接量化"在XX项目中,系统日活用户约XX万,核心接口峰值QPS达到XX,TPS处理能力为XX/秒。通过压力测试验证过XX并发线程下的稳定性。"技术方案...

瞬时流量高并发“保命指南”:这样做系统稳如泰山,老板跪求加薪

“系统崩了,用户骂了,年终奖飞了!”——这是多少程序员在瞬时大流量下的真实噩梦?双11秒杀、春运抢票、直播带货……每秒百万请求的冲击,你的代码扛得住吗?2025年了,为什么你的系统一遇高并发就“躺平”...

其实很多Java工程师不是能力不够,是没找到展示自己的正确姿势。

其实很多Java工程师不是能力不够,是没找到展示自己的正确姿势。比如上周有个小伙伴找我,五年经验但简历全是'参与系统设计''优化接口性能'这种空话。我就问他:你做的秒杀...

PHP技能评测(php等级考试)

公司出了一些自我评测的PHP题目,现将题目和答案记录于此,以方便记忆。1.魔术函数有哪些,分别在什么时候调用?__construct(),类的构造函数__destruct(),类的析构函数__cal...

你的简历在HR眼里是青铜还是王者?

你的简历在HR眼里是青铜还是王者?兄弟,简历投了100份没反应?面试总在第三轮被刷?别急着怀疑人生,你可能只是踩了这些"隐形求职雷"。帮3630+程序员改简历+面试指导和处理空窗期时间...

取消回复欢迎 发表评论: