百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

Redis热Key监控

mhr18 2024-11-30 12:26 25 浏览 0 评论

为什么要监控热Key?

如果一个Redis的QPS过高,我可以做个主从或者分片,以此来分摊单个节点压力。如果只是某个Key的QPS过高我们该如何处理呢?

这种情况其实非常普遍,比如新闻网站的热门新闻事件或电商网站热门商品等。这个时候某个Key会成为一个热Key,而这个热Key可能会打垮Redis节点,造成系统故障。

如何处理热Key

目前业内的方案主要有两种:

1.利用二级缓存

比如利用ehcache,或者一个HashMap都可以。在你发现热key以后,把热Key加载到本地内存中。 针对这种热Key请求,会直接从本地内存中取,而不会走到Redis服务层。

假设此时有10W个针对同一个key的请求过来,如果没有本地缓存,这十万个请求就直接发到同一台Redis上了。 现在假设,你的应用层有50台机器,OK,你也有本地缓存了。这10W个请求平均分散开来,每个机器有2000个请求,会从本地内存中取到value值,然后返回数据。避免了所有请求打到同一台Redis上的情形,以此来避免服务压力过大的问题。

2.备份热Key,分摊压力

这个方案也很简单。不要让Key打到同一台Redis上不就行了。我们把这个Key,在多个redis上都存一份。接下来,有热key请求进来的时候,我们就在有备份Redis节点上随机选取一台,进行访问取值,返回数据。以此来减少单节点的OPS过高问题。

如何监控热Key?

我们就要从Redis的使用和原理上去逐层分析。

1、客户端

客户端是用户距离key最近的地方,我们可以在客户端设置全局计数器(比如一个Map),每次调用Redis命令时,使用这个计数器对Key进行记录和计数。

使用客户端进行热点Key的统计非常容易实现,大家可以想象一下会有哪些问题?

1、我们不知道Key的数量,所以不知道Map的大小,所以可能会大量占用服务器内存;

2、我们需要修改客户端的代码,对代码有一定的侵入性;

3、我们知道知道当前客户端的热Key,而目前微服务盛行的今天,无法知道整个集群的热Key。

面对这些问题,我们应该如何解决?通过其他存储方式取代本地计数器存储,进而可以解决1和3的问题,但是2的问题依然无法解决。

2、代理端

通过一层中间代理,所有客户端的请求都是通过代理端完成的,以此来进行Redis的操作的统计。比如大家熟悉的Codis。如下图所示:

可以看出所有的操作都是通过Codis来路由转发的。这会有什么问题呢?

1、Codis需要保证高可用,一旦Codis出现了问题,会导致整个Redis都将不可用。

2、多了一层Proxy,多了一层网络交互,性能会有所下降。

3、服务端

使用monitor命令统计热点key是很多开发和运维人员首先想到,monitor命令可以监控到Redis执行的所有命令,下面为一次monitor命令执行后部分结果。这个方案是完美的吗?当然不是,有以下缺点:

1、monitor命令在高并发条件下,会存在内存暴增和影响Redis性能的隐患,所以此种方法适合在短时间内使用。

2、只能统计一个Redis节点的热点key,对于Redis集群需要进行汇总统计。

4、机器层面

Redis客户端使用TCP协议与服务端进行交互,通信协议采用的是Redis协议,可以通过对机器上所有Redis端口的TCP数据包进行抓取完成热点key的统计。这种方法对于Redis客户端和服务端来说毫无侵入,但是依然存在两个问题:

1、开发成本高,难以维护

2、也是单点采集,对于Redis集群需要进行汇总统计。

我们如何实现的?

经过上文的详细分析,我们可以总结到发现hotkey,需要以下几个特点:

1、实时性:尽量能够实时统计到

2、高性能:尽量不要对性能有损耗

3、低耦合:不要对用户有侵入

4、支持集群统计

结合上述特点,我们参考了京东开源的产品hotkey来实现我们hotkey的监控系统。整体架构如图:

组件介绍

1、etcd集群

etcd作为一个高性能的配置中心,可以以极小的资源占用,提供高效的监听订阅服务。主要用于存放规则配置,各worker的ip地址,以及探测出的热key、手工添加的热key等。

2、agent代理

就是在服务中添加的引用jar,引入后,就可以以便捷的方式去判断某key是否热key。同时,该jar完成了key上报、监听etcd里的rule变化、worker信息变化、热key变化,对热key进行本地caffeine缓存等。

3、worker端集群

worker端是一个独立部署的Java程序,启动后会连接etcd,并定期上报自己的ip信息,供client端获取地址并进行长连接。之后,主要就是对各个client发来的待测key进行累加计算,当达到etcd里设定的rule阈值后,将热key推送到各个client。

4、dashboard控制台

控制台是一个带可视化界面的Java程序,也是连接到etcd,之后在控制台设置各个APP的key规则,譬如2秒出现20次算热key。然后当worker探测出来热key后,会将key发往etcd,dashboard也会监听热key信息,进行入库保存记录。同时,dashboard也可以手工添加、删除热key,供各个client端监听。

工作原理

1 首先搭建etcd集群

etcd作为全局共用的配置中心,将让所有的client能读取到完全一致的worker信息和rule信息。

2 启动dashboard可视化界面

在界面上添加各个APP的待测规则,如app1它包含两个规则,一个是userId_开头的key,如userId_abc,每2秒出现20次则算热key,第二个是skuId_开头的每1秒出现超过100次则算热key。只有命中规则的key才会被发送到worker进行计算。

3 启动worker集群

? worker集群可以配置APP级别的隔离,也可以不隔离,做了隔离后,这个app就只能使用这几个worker,以避免其他APP在性能资源上产生竞争。worker启动后,会从etcd读取之前配置好的规则,并持续监听规则的变化。

? 然后,worker会定时上报自己的ip信息到etcd,如果一段时间没有上报,etcd会将该worker信息删掉。worker上报的ip供client进行长连接,各client以etcd里该app能用的worker信息为准进行长连接,并且会根据worker的数量将待测的key进行hash后平均分配到各个worker。

? 之后,worker就开始接收并计算各个client发来的key,当某key达到规则里设定的阈值后,将其推送到该APP全部客户端jar,之后推送到etcd一份,供dashboard监听记录。

4 agent代理

? client端启动后会连接etcd,获取规则、获取专属的worker ip信息,之后持续监听该信息。获取到ip信息后,会通过netty建立和worker的长连接。

? client会启动一个定时任务,每500ms(可设置)就批量发送一次待测key到对应的worker机器,发送规则是key的hashcode 对worker数量取余,所以固定的key肯定会发送到同一个worker。这500ms内,就是本地搜集累加待测key及其数量,到期就批量发出去即可。注意,已经热了的key不会再次发送,除非本地该key缓存已过期。

? 当worker探测出来热key后,会推送过来,框架采用caffeine进行本地缓存,会根据当初设置的rule里的过期时间进行本地过期设置。当然,如果在控制台手工新增、删除了热key,client也会监听到,并对本地caffeine进行增删。这样,各个热key在整个client集群内是保持一致性的。

示例

总结一下

我们分析了常用监控hotkey的方法后,得出hotkey监控需要的基本特点。然后基于这些特点来进行hotkey方案的实现。

相关推荐

Spring Boot 分布式事务实现简单得超乎想象

环境:SpringBoot2.7.18+Atomikos4.x+MySQL5.71.简介关于什么是分布式事务,本文不做介绍。有需要了解的自行查找相关的资料。本篇文章将基于SpringBoot...

Qt编写可视化大屏电子看板系统15-曲线面积图

##一、前言曲线面积图其实就是在曲线图上增加了颜色填充,单纯的曲线可能就只有线条以及数据点,面积图则需要从坐标轴的左下角和右下角联合曲线形成完整的封闭区域路径,然后对这个路径进行颜色填充,为了更美观...

Doris大数据AI可视化管理工具SelectDB Studio重磅发布!

一、初识SelectDBStudioSelectDBStudio是专为ApacheDoris湖仓一体典型场景实战及其兼容数据库量身打造的GUI工具,简化数据开发与管理。二、Select...

RAD Studio 、Delphi或C++Builder设计代码编译上线缩短开发时间

#春日生活打卡季#本月,Embarcadero宣布RADStudio12.3Athens以及Delphi12.3和C++Builder12.3,提供下载。RADStudio12.3A...

Mybatis Plus框架学习指南-第三节内容

自动填充字段基本概念MyBatis-Plus提供了一个便捷的自动填充功能,用于在插入或更新数据时自动填充某些字段,如创建时间、更新时间等。原理自动填充功能通过实现com.baomidou.myba...

「数据库」Sysbench 数据库压力测试工具

sysbench是一个开源的、模块化的、跨平台的多线程性能测试工具,可以用来进行CPU、内存、磁盘I/O、线程、数据库的性能测试。目前支持的数据库有MySQL、Oracle和PostgreSQL。以...

如何选择适合公司的ERP(选erp系统的经验之谈)

很多中小公司想搞ERP,但不得要领。上ERP的目的都是歪的,如提高效率,减少人员,堵住财务漏洞等等。真正用ERP的目的是借机提升企业管理能力,找出管理上的问题并解决,使企业管理更规范以及标准化。上ER...

Manus放开注册,但Flowith才是Agent领域真正的yyds

大家好,我是运营黑客。前天,AIAgent领域的当红炸子鸡—Manus宣布全面放开注册,终于,不需要邀请码就能体验了。于是,赶紧找了个小号去确认一下。然后,额……就被墙在了外面。官方解释:中文版...

歌浓酒庄总酿酒师:我们有最好的葡萄园和最棒的酿酒师

中新网1月23日电1月18日,张裕董事长周洪江及总经理孙健一行在澳大利亚阿德莱德,完成了歌浓酒庄股权交割签约仪式,这也意味着张裕全球布局基本成型。歌浓:澳大利亚年度最佳酒庄据悉,此次张裕收购的...

软件测试进阶之自动化测试——python+appium实例

扼要:1、了解python+appium进行APP的自动化测试实例;2、能根据实例进行实训操作;本课程主要讲述用python+appium对APP进行UI自动化测试的例子。appium支持Androi...

为什么说Python是最伟大的语言?看图就知道了

来源:麦叔编程作者:麦叔测试一下你的分析能力,直接上图,自己判断一下为什么Python是最好的语言?1.有图有真相Java之父-JamesGoshlingC++之父-BjarneStrou...

如何在Eclipse中配置Python开发环境?

Eclipse是著名的跨平台集成开发环境(IDE),最初主要用来Java语言开发。但是我们通过安装不同的插件Eclipse可以支持不同的计算机语言。比如说,我们可以通过安装PyDev插件,使Eclip...

联合国岗位上新啦(联合国的岗位)

联合国人权事务高级专员办事处PostingTitleIntern-HumanRightsDutyStationBANGKOKDeadlineOct7,2025CategoryandL...

一周安全漫谈丨工信部:拟定超1亿条一般数据泄露属后果严重情节

工信部:拟定超1亿条一般数据泄露属后果严重情节11月23日,工信部官网公布《工业和信息化领域数据安全行政处罚裁量指引(试行)(征求意见稿)》。《裁量指引》征求意见稿明确了行政处罚由违法行为发生地管辖、...

oracle列转行以及C#执行语句时报错问题

oracle列转行的关键字:UNPIVOT,经常查到的怎么样转一列,多列怎么转呢,直接上代码(sshwomeyourcode):SELECTsee_no,diag_no,diag_code,...

取消回复欢迎 发表评论: