redis同城双活方案(redis双主模式)
mhr18 2024-10-26 10:46 45 浏览 0 评论
1.设计概述
1.1. 目标
(1).核心服务可以同时在两个机房运行,但备机房服务依然访问主机房数据。
(2).主机房出现故障后,可以迅速将全站业务流量都切换到备机房,同时备机房服务也将数据访问切换到备机房并且只读访问。
2.架构设计
2.1 redis单实例同城双活架构
2.2 业务访问流程
3.模块设计
3.1. redis
redis实例为公司原有redis实例,不做任何修改和调整。
3.2. consul
整个同城双活中的服务治理中心,负责服务的注册、销毁和查询,主机房故障或者主机房中服务出现故障后通知所有相关业务切换到备机房。
3.3. consul-agent
每个服务器上运行一个consul-agent服务,用于注册redis服务和检测redis健康状态。启动redis实例时将redis与所属appid写入到相应的consul服务配置文件,consul-agent自动读取consul服务配置文件并将新添加服务注册到consul中。周期检测服务器上注册服务的健康状态并上报到consul中。
3.4. jedis
业务方jedis客户端使用公司定制的jedis客户端。jedis负责与consul之间进行通讯,当redis服务触发切换时,consul主动通知jedis进行切换。
jedis与备机房建立连接时,只能将读请求发送到备机房;写请求直接返回失败。
3.5. zookeeper
keeper启动时都向zookeeper进行注册,cacheCloud通过监听keeper在zookeeper上的节点来判断keeper是否存活,当主keeper挂掉时执行keeper切换动作。
3.6. mysql
cacheCloud将自己管理的所有信息都存储到mysql中,mysql通过主从同步到备机房,备机房中的cacheCloud也可以读取到所有信息。
3.7. keeper
keeper负责将主机房redis实例数据同步到备机房redis实例。
支持单双工,当主机房故障恢复后,需要从备机房恢复数据到主机房。
3.7.1. keeper管理
每个keeper都是keeperContainer中的一个服务,cacheCloud通过向keeperContainer发命令来增加、删除keeper实例。cacheCloud也可以直接向keeper发送命令来管理keeper。
3.7.2. keeper怎么同步数据到备机房,slave怎么与keeper进行同步数据
主机房部署两个keeper,一个作为主keeper,一个作为备keeper,备机房keeper向主机机房keeper同步数据,然后再将数据同步到备机房redis。
3.7.3. keeper内部数据同步原理
(1).单个增量aof文件大小限制,增量aof文件数量限制
(2).RDB文件会不会被删除,aof文件会不会被删除,RDB或aof删除后,slave触发全量同步怎么处理
(3).RDB文件和大量增量aof存在时,slave触发全量同步怎么处理,回放所有aof文件吗
(4).详细的主从同步交互细节redis->keeper->keeper->redis
(5).keeper切换master后怎么处理,以及怎么与keeper下的slave进行同步数据
(6).keeper关闭后会不会删除RDB和AOF文件
(7).keeper与master断开连接重连后会不会触发全量同步,keeper与master什么情况下触发全量同步,keeper与slave什么情况下触发全量同步。
(8).master执行flushall后keeper会不会清掉自己的数据。
(9).keeper本地数据存储策略,keeper重启数据是否还在
3.7.4. keeper的高可用实现
(1).keeper启动时再zk上注册一个临时节点。
(2).cacheCloud监听zk上的keeper节点
(3).当cacheCloud检测到keeper节点挂掉之后,cacheCloud对keeper进行主从切换将备机房slave挂到新master keeper
cacheCloud要实现高可用,要部署集群模式。
3.7.5. 备机房keeper高可用实现
备机房也启动一主一备两个keeper,keeper向备机房zookeeper进行注册,备机房也起两个(如果资源紧张牺牲一定的高可用只启一个也可以)cacheCloud对zookeeper进行监控。当主keeper宕掉后cacheCloud将备keeper升级为主keeper。
3.7.6. keeper扩容
keeper容器所在服务器中内存,磁盘不足,keeper怎样进行扩容。
3.7.7. 多个keeper不能同时触发全量同步
keeper与master进行全量同步数据时,多个keeper不能同时与同一个服务器上的多个redis同步数据,否则同一机器上多个redis同时bgsave会导致内存翻倍,同时也会导致网络带宽突增,磁盘io出现瓶颈。
3.7.8. keeper支持redis密码认证
keeper中支持redis密码认证功能,
3.7.9. keeper中记录master ip和port信息
keeper如果重启,可以查看keeper中master的ip和port信息。
3.7.10. keeperContainer升级
当keeperContainer出现bug时,怎么对keeperContainer进行升级?
可以通过服务部署的方式对整个keeperContainer进行升级。
3.8. cachecloud
cachecloud负责主备两个机房redis实例的监控与管理,同时负责主备两个机房redis实例数据同步监控和管理。
主备两机房redis实例数据同步控制、同步状态监控、同步信息统计等都在cachecloud中进行。
3.8.1.增加一个IDC机房管理页面
机房列表统计信息,展示该机房有多少个机器、多少个redis、多少个keeperContainer、多少个keeper;
点击机器数量可以跳转到机器列表。
机房信息:名称、地点、备注;机柜容量、整个机房带宽等。
机器管理中添加机器时选择的机房应该是已经存在的机房;并可以只展示某个机房的机器。
3.8.2.信息展示增加IDC字段
给机器增加一个IDC字段(现在已经存在),用来区别不同的机房;其他需要展示的地方通过机器ip来识别IDC。
a.应用实例列表中显示keeper实例、实例类型、机房信息;可以指定机房
b.应用运维实例列表页面显示keeper实例、实例类型、机房信息;可以指定机房
c.应用拓扑里面也显示机房信息。
3.8.3.增加keeperContainer管理页面,keeper实例列表页面
管理所有keeperContainer,线上每个keeperContainer中有多少个keeper,以及新建和删除keeperContainer
keeper实例列表页面展示单个keeperContainer下所有的keeper列表信息;显示keeper信息的时候应该同时将相关上下有实例数据同步状态显示出来,同时也将keeper的备用keeper也显示出来。
3.8.4.增加keeper实例类型
增加keeper实例类型,在应用列表中显示keeper实例。keeper暂时只支持重新启动,不支持导入。
3.8.5.数据监控
跨机房对实例信息监控时,超时时间要相应大一些。
增加对keeperContainer、keeper的监控。
3.8.6.跨机房数据同步
同一应用下实例列表要展示出数据同步对应关系。
3.8.7.cachecloud高可用
备机房也部署一套cachecloud,但备机房cachecloud不执行周期任务和数据监控。cachecloud中增加一个配置用来表示备机房机器是否执行周期任务和数据监控
(1).主机房cacheCloud通过集群模式部署多套
过个cacheCloud依赖数据库行锁,互斥的从mysql中取任务去执行。主要包括周期信息收集任务、周期检测zk上keeper是否存活,以及keeper启动切换任务。
3.8.8.数据同步实现高可用
master实例挂掉后keeper怎样切换到新实例?
b.主keeper挂掉后,被机房实例怎样切换到备keeper?
4.风险与规避
服务注册相关:
(1).master、slave是否都需要consul-agent进行监控
consul只监控master,不监控slave,consul监控redis实例时使用的是vip。
(2).客户端自己做sharding的多个redis实例属于同一个appid还是多个appid
每个redis实例都注册到相同的appid,每个appid可以包含多个实例。
(3).consul-agent监听服务配置文件格式。
appid:subappid:redis:[master|slave]:ip:port:[other]
subappid:同一个业务需要多个redis实例时,redis实例注册时要知道一个子appid
保留一个自定义字段。
other:如果是codis数据类型,或者是业务自己做sharding时,可以在other中将本redis负责的slot信息注册到consul最后传递到客户端;是否有状态,proxy是无状态的只要有一个proxy活着就可以,切片redis则不同实例负责不同数据,只有所有的redis都健康整个服务才健康。
服务切换相关:
(1).怎样保证业务前端(客户端)的流量都切换到备机房
客户端切后端服务通过httpdns,已经实现。
(2).consul具体怎么通知到每个客户端及业务
(3).redis主从切换、slave宕机时怎样通知consul,
consul不关心主从切换和slave宕机,只今天redis对应的vip是否通。
(4).redis主从对外提供vip吗,如果对外提供vip则主从切换后客户端不需要调整
同上。
redis跨机房同步数据相关:
(1).网络故障、同步进程故障等,怎样重新进行跨机房数据同步
(2).主从切换后怎样进行跨机房数据同步
(3).同步进程状态监控报警
5. 优化点:
1.keeper通过容器或者vip部署,如果触发主从切换后保证keeper的对外ip地址不变,这样就可以避免下游节点触发全量同步。
2.slave上如果是同一份RDB时,应该避免触发全量同步,redis-4.0是否支持该功能
相关推荐
- 【预警通报】关于WebLogic存在远程代码执行高危漏洞的预警通报
-
近日,Oracle官方发布了2021年1月关键补丁更新公告CPU(CriticalPatchUpdate),共修复了包括CVE-2021-2109(WeblogicServer远程代码执行漏洞)...
- 医院信息系统突发应急演练记录(医院信息化应急演练)
-
信息系统突发事件应急预案演练记录演练内容信息系统突发事件应急预案演练参与人员信息科参与科室:全院各部门日期xxxx-xx-xx时间20:00至24:00地点信息科记录:xxx1、...
- 一文掌握怎么利用Shell+Python实现完美版的多数据源备份程序
-
简介:在当今数字化时代,无论是企业还是个人,数据的安全性和业务的连续性都是至关重要的。数据一旦丢失,可能会造成无法估量的损失。因此,如何有效地对分布在不同位置的数据进行备份,尤其是异地备份,成为了一个...
- docker搭建系统环境(docker搭建centos)
-
Docker安装(CentOS7)1.卸载旧版Docker#检查已安装版本yumlistinstalled|grepdocker#卸载旧版本yumremove-ydocker.x...
- 基础篇:数据库 SQL 入门教程(sql数据库入门书籍推荐)
-
SQL介绍什么是SQLSQL指结构化查询语言,是用于访问和处理数据库的标准的计算机语言。它使我们有能力访问数据库,可与多种数据库程序协同工作,如MSAccess、DB2、Informix、M...
- Java21杀手级新特性!3行代码性能翻倍
-
导语某券商系统用这招,交易延迟从12ms降到0.8ms!本文揭秘Oracle官方未公开的Record模式匹配+虚拟线程深度优化+向量API神操作,代码量直降70%!一、Record模式匹配(代码量↓8...
- 一文读懂JDK21的虚拟线程(java虚拟线程)
-
概述JDK21已于2023年9月19日发布,作为Oracle标准Java实现的一个LTS版本发布,发布了15想新特性,其中虚拟线程呼声较高。虚拟线程是JDK21中引入的一项重要特性,它是一种轻量级的...
- 效率!MacOS下超级好用的Linux虚拟工具:Lima
-
对于MacOS用户来说,搭建Linux虚拟环境一直是件让人头疼的事。无论是VirtualBox还是商业的VMware,都显得过于笨重且配置复杂。今天,我们要介绍一个轻巧方便的纯命令行Linux虚拟工具...
- 所谓SaaS(所谓三维目标一般都应包括)
-
2010年前后,一个科技媒体的主编写一些关于云计算的概念性问题,就可以作为头版头条了。那时候的云计算,更多的还停留在一些概念性的问题上。而基于云计算而生的SaaS更是“养在深闺人未识”,一度成为被IT...
- ORA-00600 「25027」 「x」报错(报错0xc0000001)
-
问题现象:在用到LOB大对象的业务中,进行数据的插入,失败了,在报警文件中报错:ORA-00600:内部错误代码,参数:[25027],[10],[0],[],[],[],[],[...
- 安卓7源码编译(安卓源码编译环境lunch失败,uname命令找不到)
-
前面已经下载好源码了,接下来是下载手机对应的二进制驱动执行编译源码命令下载厂商驱动https://developers.google.com/android/drivers?hl=zh-cn搜索NGI...
- 编译安卓源码(编译安卓源码 电脑配置)
-
前面已经下载好源码了,接下来是下载手机对应的二进制驱动执行编译源码命令下载厂商驱动https://developers.google.com/android/drivers?hl=zh-cn搜索NGI...
- 360 Vulcan Team首战告捷 以17.5万美金强势领跑2019“天府杯“
-
2019年11月16日,由360集团、百度、腾讯、阿里巴巴、清华大学与中科院等多家企业和研究机构在成都联合主办了2019“天府杯”国际网络安全大赛暨2019天府国际网络安全高峰论坛。而开幕当日最激荡人...
- Syslog 日志分析与异常检测技巧(syslog发送日志配置)
-
系统日志包含有助于分析网络设备整体运行状况的重要信息。然而,理解并从中提取有效数据往往颇具挑战。本文将详解从基础命令行工具到专业日志管理软件的全流程分析技巧,助你高效挖掘Syslog日志价值。Gr...
- 从Oracle演进看数据库技术的发展(从oracle演进看数据库技术的发展的过程)
-
数据库技术发展本质上是应用需求驱动与基础架构演进的双向奔赴,如何分析其技术发展的脉络和方向?考虑到oracle数据库仍然是这个领域的王者,以其为例,管中窥豹,对其从Oracle8i到23ai版本的核...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracle位图索引 (74)
- oracle基目录 (50)
- oracle批量插入数据 (65)
- oracle事务隔离级别 (53)
- oracle主从同步 (55)
- oracle 乐观锁 (51)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)