百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

线上问题之:没有数据写入,但redis内存诡异飙升

mhr18 2024-10-24 11:16 29 浏览 0 评论

对中间件的熟悉程度会直接影响到你的编码质量和查错效率

一、问题背景

某天早上到公司,习惯性地看下监控大盘,一如既往一样正常,但是在浏览到redis监控时,发现了一个奇怪的现象,从前一天晚上开始,redis的内存用量出现频繁毛刺现象,如下图:

最近没有上线新业务,按道理不应该出现这么频繁地写入(内存占用)和删除/过期(内存释放)。问了下其他同事,都反馈没有任何调整,运维也反馈没有调整。那就奇怪了,还有这种诡异的事情发生。虽然影响不大,但是出于对技术的探索角度,还是继续探究个为什么。

二、排查过程

先介绍下,redis里面存储的都是hash类型的key,过期时间都很久(365天左右),redis内存大小为128M。

首先去找运维(只有运维有线上机器权限),登上redis,看了下key的个数(命令:dbsize),结果发现并没有什么变化(我们的key和用户相关,个数增长不会很快)。然后看了下redis连接情况(命令:client list),发现请求来源都是合法的线上机器。此时排查十分没有头绪。无意间看了眼执行命令列表,发现有一些hgetall,这种O(n)的查询命令,一定是要慎用的(如果可以,都建议用hscan代替,除非确定hash很小)。

反正没有头绪,就顺着hgetall查下去,看能不能查出来什么。于是继续查下redis连接情况(命令:client list),目的是搜下这个hgetall是哪里来的。一番查找后,终于找到了,如下图

然后发现了一个诡异的地方,这里有个omem指标很大,足足26214496字节,约26M,一番回忆后想到,这个omem不就是查询连接的输出区大小嘛,redis会把输出结果放到输出缓冲区返回给客户端,而这个输出缓冲区是占用redis本身的内存资源的。瞬间感觉离真像近在咫尺了,八九不离十就是这个原因了:有某些功能在执行hgetall,而且查询了一个超大的hash key!进而占用了较多输出缓冲区,造成的现象就是内存毛刺(我redis内存本身比较小)。

立刻查看redis快照分析统计,发现果真有几个超大的hash key,打开代码全局搜索后,找到了这块代码,看了下,是一个“祖传”老代码,粗暴地使用了hgetall查询redis内容,然后放入内存缓存(应该是为了进一步提高接口的性能),可能当时hash比较小,没有问题,但是随着业务的发展,hash的field个数越来越多,hash越来越大,问题就凸显出来了!

问题告破。当即改了这位“前辈”的代码,把hgetall改为hscan,如下图,hscan是O(1)复杂度的查询命令,增量的查询hash的field(一般一次返回10个,可设置)直到迭代完毕所有hash的field,完美避免hgetall带来的慢查询和输出缓冲区过大问题。

三、总结发散

redis作为一个高性能缓存非关系数据库(KV数据库),提供了非常高的性能保证(单机可达10w qps),但是如果使用不当,不仅得不到好的效果,还会影响到其他redis操作。比如像keys * ,hgetall,smembers等O(n)时间复杂度的命令,阻塞redis查询(redis连接是epoll模型但是worker是单线程),严重的会出重大线上问题。

其次最重要的是,各位同学不要单纯以为存入redis多少数据,就占用多少内存,大错特错。为什么这么说,因为除了我们原始存入的内容,redis还有另外的数据结构,如:全局的hashTable,每个key的dictEntry,以及大家熟悉的redisObject结构(各种类型的key都是基于此结构体进行构建)等等,这些结构帮助redis来管理我们写入的数据。(就像我们买了个128g内存的iphone,拿到手可用的其实也就110g左右)。

只有不断加深对中间件的熟悉程度、框架底层原理的探索和理解,才会更进一步提升我们的编程能力、架构能力、避免踩一些隐藏的坑,也才是真正的“专业”和“业余”的分水岭!

留2个问题给各位:

1、你写入的key带了ttl,这个ttl在redis中是怎么记录的?

2、hash结构扩容,是怎么样的过程?

欢迎各位在评论区留言讨论。

相关推荐

Redis合集-使用benchmark性能测试

采用开源Redis的redis-benchmark工具进行压测,它是Redis官方的性能测试工具,可以有效地测试Redis服务的性能。本次测试使用Redis官方最新的代码进行编译,详情请参见Redis...

Java简历总被已读不回?面试挂到怀疑人生?这几点你可能真没做好

最近看了几十份简历,发现大部分人不是技术差,而是不会“卖自己”——一、简历死穴:你写的不是经验,是岗位说明书!反面教材:ד使用SpringBoot开发项目”ד负责用户模块功能实现”救命写法:...

redission YYDS(redission官网)

每天分享一个架构知识Redission是一个基于Redis的分布式Java锁框架,它提供了各种锁实现,包括可重入锁、公平锁、读写锁等。使用Redission可以方便地实现分布式锁。red...

从数据库行锁到分布式事务:电商库存防超卖的九重劫难与破局之道

2023年6月18日我们维护的电商平台在零点刚过3秒就遭遇了严重事故。监控大屏显示某爆款手机SKU_IPHONE13_PRO_MAX在库存仅剩500台时,订单系统却产生了1200笔有效订单。事故复盘发...

SpringBoot系列——实战11:接口幂等性的形而上思...

欢迎关注、点赞、收藏。幂等性不仅是一种技术需求,更是数字文明对确定性追求的体现。在充满不确定性的网络世界中,它为我们建立起可依赖的存在秩序,这或许正是技术哲学最深刻的价值所在。幂等性的本质困境在支付系...

如何优化系统架构设计缓解流量压力提升并发性能?Java实战分享

如何优化系统架构设计缓解流量压力提升并发性能?Java实战分享在高流量场景下。首先,我需要回忆一下常见的优化策略,比如负载均衡、缓存、数据库优化、微服务拆分这些。不过,可能还需要考虑用户的具体情况,比...

Java面试题: 项目开发中的有哪些成长?该如何回答

在Java面试中,当被问到“项目中的成长点”时,面试官不仅想了解你的技术能力,更希望看到你的问题解决能力、学习迭代意识以及对项目的深度思考。以下是回答的策略和示例,帮助你清晰、有说服力地展示成长点:一...

互联网大厂后端必看!Spring Boot 如何实现高并发抢券逻辑?

你有没有遇到过这样的情况?在电商大促时,系统上线了抢券活动,结果活动刚一开始,服务器就不堪重负,出现超卖、系统崩溃等问题。又或者用户疯狂点击抢券按钮,最后却被告知无券可抢,体验极差。作为互联网大厂的后...

每日一题 |10W QPS高并发限流方案设计(含真实代码)

面试场景还原面试官:“如果系统要承载10WQPS的高并发流量,你会如何设计限流方案?”你:“(稳住,我要从限流算法到分布式架构全盘分析)…”一、为什么需要限流?核心矛盾:系统资源(CPU/内存/数据...

Java面试题:服务雪崩如何解决?90%人栽了

服务雪崩是指微服务架构中,由于某个服务出现故障,导致故障在服务之间不断传递和扩散,最终造成整个系统崩溃的现象。以下是一些解决服务雪崩问题的常见方法:限流限制请求速率:通过限流算法(如令牌桶算法、漏桶算...

面试题官:高并发经验有吗,并发量多少,如何回复?

一、有实际高并发经验(建议结构)直接量化"在XX项目中,系统日活用户约XX万,核心接口峰值QPS达到XX,TPS处理能力为XX/秒。通过压力测试验证过XX并发线程下的稳定性。"技术方案...

瞬时流量高并发“保命指南”:这样做系统稳如泰山,老板跪求加薪

“系统崩了,用户骂了,年终奖飞了!”——这是多少程序员在瞬时大流量下的真实噩梦?双11秒杀、春运抢票、直播带货……每秒百万请求的冲击,你的代码扛得住吗?2025年了,为什么你的系统一遇高并发就“躺平”...

其实很多Java工程师不是能力不够,是没找到展示自己的正确姿势。

其实很多Java工程师不是能力不够,是没找到展示自己的正确姿势。比如上周有个小伙伴找我,五年经验但简历全是'参与系统设计''优化接口性能'这种空话。我就问他:你做的秒杀...

PHP技能评测(php等级考试)

公司出了一些自我评测的PHP题目,现将题目和答案记录于此,以方便记忆。1.魔术函数有哪些,分别在什么时候调用?__construct(),类的构造函数__destruct(),类的析构函数__cal...

你的简历在HR眼里是青铜还是王者?

你的简历在HR眼里是青铜还是王者?兄弟,简历投了100份没反应?面试总在第三轮被刷?别急着怀疑人生,你可能只是踩了这些"隐形求职雷"。帮3630+程序员改简历+面试指导和处理空窗期时间...

取消回复欢迎 发表评论: