百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

超全面Redis分布式高可用方案:哨兵机制

mhr18 2024-11-12 11:24 23 浏览 0 评论

作者:架构精进之路,十年研发风雨路,大厂架构师,CSDN 博客专家,专注架构技术沉淀学习及分享,职业与认知升级,坚持分享接地气儿的干货文章,期待与你一起成长

关注并私信我回复“01”,送你一份程序员成长进阶大礼包,欢迎勾搭。

开发工作中对于分布式缓存高可用方案(搭建 Redis 缓存高可用方案),Redis 主从架构下是如何保证高可用的呢?

我们知道 Redis Sentinel 是一个分布式系统,为 Redis 提供高可用性解决方案。那 Redis 服务部署的哨兵模式主要原理是什么,又解决了什么问题呢,于是利用时间将相关问题做了整理,相信看完这篇文章,你也可以去给别人做技术分享了。O(∩_∩)O 哈哈~

0. 问题铺垫

在讨论哨兵模式之前,我们先来看一个应用问题:Redis服务主机宕机

实际使用过程中,会出现master宕机的情况(这样会导致没有写服务,只有读服务)。那我们要保证服务的可用,就需要从其他salve节点中选取一个来作为master节点,来继续提供服务能力。


那主要的动作抽象下:

  • 将宕机的master下线
  • 找一个slave作为master
  • 通知所有的slave连接新的master
  • 全量数据或者部分数据同步

其中存在几个问题:

  • 谁来确认master宕机?(假如仅仅是网络抖动了一下,就把我宕掉么?)
  • 如何从slave中找一个master代替,谁来找?怎么找?有什么依据?
  • 修改配置后,原始的主恢复了怎么办?

其实引入哨兵机制,就可以很好的解决上述问题。

哨兵-Redis集群

1. 什么是哨兵?

Sentinel(哨兵)是Redis 的高可用性解决方案:由一个或多个Sentinel 实例组成的Sentinel 系统可以监视任意多个主服务,以及这些主服务器属下的所有从服务,并在被监视的主服务进入下线(不可服务)状态时,自动将下线主服务器属下的某个从服务器升级为新的主服务器。


总结一下哨兵的作用:

  • 集群监控

不断的检查master和slave是否正常运行(master存活检测、master与slave运行情况检测)

  • 消息通知

当被监控的服务器出现问题时,向其他哨兵、客户端发送通知

  • 自动故障转移

断开故障master与slave的连接,选取一个slave作为新master,将其他slave连接到新的master并告知客户端新的服务器地址。

注意:哨兵也是一台Redis服务器,只是不提供数据服务;通常哨兵配置的数量为单数。


2. 哨兵的工作原理

下面主要针对哨兵在进行故障转移过程中经历的三个阶段分别进行阐述。

2.1. 集群监控

step1:哨兵1连接到Redis集群

  • 发送info命令到master,并建立cmd连接;
  • 哨兵端保存哨兵状态(SentinelStatus),保存所有哨兵状态,主节点和从节点的信息;master端会记录 redis 实例的信息(SentinelRedisInstance);
  • 哨兵根据master中获取的每个slave信息,去连接每个slave,发送同样也是info命令。

集群监控

step2:哨兵2加入进来后

  • 同样会发送info命令到master节点,并建立cmd连接;
  • 发现master中存在其他哨兵节点的信息,哨兵2中保存哨兵信息(区别与哨兵1的是它保存了哨兵1和哨兵2的2个哨兵节点信息);
  • 为了每个哨兵的信息都一致它们之间建立了一个发布订阅。为了哨兵之间的信息长期对称它们之间也会互发 ping 命令。

集群监控

step3:哨兵3加入后

  • 同样进行哨兵1、2的动作,会发送info命令到master节点,并建立cmd连接;
  • 为了保证哨兵1-哨兵2之间的信息是同步的,建立了一个发布订阅的一个队列(可以互发ping命令)

集群监控


小小总结一下:

  • Sentinel会向master、slave以及其他Sentinel获取状态;
  • Sentinel之间会组建“对应频道”,大家一起发布信息、订阅信息、收信息、同步信息等。

2.2. 消息通知

1)Sentinel节点会通过master/slave 节点建立的cmd连接获取其工作状态

2)Sentinel收到反馈结果之后,会在哨兵内部进行信息的互通


消息通知

2.3. 故障转移

关于故障转移,严格来讲可划分两个步骤:故障判定故障转移

Q1:如何判断一个节点出现故障?

  • 哨兵会一直给主节点发送 publish sentinel:hello

直到主节点故障,哨兵报出 sdown,同时此哨兵还会向其他哨兵发布消息说这个主节点挂了。发送的指令是 sentinel is-master-down-by-address-port。

  • ?其余的哨兵接收到指令后,主节点挂了吗?让我去看看到底挂没挂。发送的信息也是 hello。

其余的哨兵也会发送他们收到的信息并且发送指令 sentinel is-master-down-by-address-port 到自己的内网,确认一下第一个发送 sentinel is-master-down-by-address-port 的哨兵说你说的对,这个家伙确实挂了。

  • ?当所有人都认为主节点挂了后就会修改其状态为 odown。

当一个哨兵认为主节点挂了标记的是 sdown,当半数哨兵都认为挂了其标记的状态是 odown。


一个哨兵认为master节点挂了称为主观下线(sdown),超半数哨兵认为master节点挂了则称为客观下线(odown)。


Q2:如何进行故障转移?

1)首先,哨兵选举出哨兵Leader去处理故障转移

此时选举方式应用的是Raft协议,这个之前有过介绍,感兴趣的同学可以移步了解:一致性算法Raft 简易入门

2)其次,哨兵Leader从所有的slave节点找出一个作为master节点

主要的规则:

  • 选择在线的节点,pass掉已下线的节点;
  • 选择响应速度快的,pass掉响应慢的节点
  • 选择与原master断开时间短的,pass掉断开时间较长的;

假如以上优先级均一致,会考虑其他优先原则:

  • 偏移量较大

假如说 slave1 的 offset 为 50,slave2 偏移量为 55,则哨兵就会选择 slave2 为新的主节点。

  • ?runid偏大的

这点类似于职场中的论资排辈,也就说根据 runid 的创建时间来判断,时间早的先上位。


3)数据转移

  • 新master上任:Sentinel向新的master发送slaveof no one
  • 其他slave周知:向其他slave发送slaveof 新master IP端口


3. 总结

Redis 主从复制的作用中有这么一句话“主从复制是高可用的基石”,那实现高可用必不可少的就是哨兵和集群。

3.1 Sentinel的作用

  • 集群监控

不断的检查master和slave是否正常运行(master存活检测、master与slave运行情况检测)

  • 消息通知

当被监控的服务器出现问题时,向其他哨兵、客户端发送通知

  • 自动故障转移

断开故障master与slave的连接,选取一个slave作为新master,将其他slave连接到新的master并告知客户端新的服务器地址。

3.2 Sentinel的工作方式

  • 每个Sentinel以每秒钟一次的频率向它所知的Master,Slave以及其他 Sentinel 实例发送一个 PING 命令
  • 如果一个实例(Instance)距离最后一次有效回复 PING 命令的时间超过 down-after-milliseconds 选项所指定的值, 则这个实例会被 Sentinel 标记为主观下线。

若 Master 重新向 Sentinel 的 PING 命令返回有效回复, Master 的主观下线状态就会被移除。

  • 如果一个Master被标记为主观下线,则正在监视这个Master的所有 Sentinel 要以每秒一次的频率确认Master的确进入了主观下线状态。
  • 当有足够数量的 Sentinel(>=配置文件指定的值)在指定的时间范围内确认Master的确进入了主观下线状态, 则Master会被标记为客观下线

若没有足够数量的 Sentinel 同意 Master 已经下线, Master 一旦客观下线状态就会被移除。

  • 在一般情况下, 每个 Sentinel 会以每 10 秒一次的频率向它已知的所有Master,Slave发送 INFO 命令
  • 当Master被 Sentinel 标记为客观下线时,Sentinel 向下线的 Master 的所有 Slave 发送 INFO 命令的频率会从 10 秒一次改为每秒一次


·················· END ··················


福利:关注公众号「架构精进之路」回复关键字:Redis,即可免费获取《Redis设计与实现》电子书


希望今天的讲解对大家有所帮助,欢迎分享转发,Thanks for reading!

相关推荐

Spring Boot 分布式事务实现简单得超乎想象

环境:SpringBoot2.7.18+Atomikos4.x+MySQL5.71.简介关于什么是分布式事务,本文不做介绍。有需要了解的自行查找相关的资料。本篇文章将基于SpringBoot...

Qt编写可视化大屏电子看板系统15-曲线面积图

##一、前言曲线面积图其实就是在曲线图上增加了颜色填充,单纯的曲线可能就只有线条以及数据点,面积图则需要从坐标轴的左下角和右下角联合曲线形成完整的封闭区域路径,然后对这个路径进行颜色填充,为了更美观...

Doris大数据AI可视化管理工具SelectDB Studio重磅发布!

一、初识SelectDBStudioSelectDBStudio是专为ApacheDoris湖仓一体典型场景实战及其兼容数据库量身打造的GUI工具,简化数据开发与管理。二、Select...

RAD Studio 、Delphi或C++Builder设计代码编译上线缩短开发时间

#春日生活打卡季#本月,Embarcadero宣布RADStudio12.3Athens以及Delphi12.3和C++Builder12.3,提供下载。RADStudio12.3A...

Mybatis Plus框架学习指南-第三节内容

自动填充字段基本概念MyBatis-Plus提供了一个便捷的自动填充功能,用于在插入或更新数据时自动填充某些字段,如创建时间、更新时间等。原理自动填充功能通过实现com.baomidou.myba...

「数据库」Sysbench 数据库压力测试工具

sysbench是一个开源的、模块化的、跨平台的多线程性能测试工具,可以用来进行CPU、内存、磁盘I/O、线程、数据库的性能测试。目前支持的数据库有MySQL、Oracle和PostgreSQL。以...

如何选择适合公司的ERP(选erp系统的经验之谈)

很多中小公司想搞ERP,但不得要领。上ERP的目的都是歪的,如提高效率,减少人员,堵住财务漏洞等等。真正用ERP的目的是借机提升企业管理能力,找出管理上的问题并解决,使企业管理更规范以及标准化。上ER...

Manus放开注册,但Flowith才是Agent领域真正的yyds

大家好,我是运营黑客。前天,AIAgent领域的当红炸子鸡—Manus宣布全面放开注册,终于,不需要邀请码就能体验了。于是,赶紧找了个小号去确认一下。然后,额……就被墙在了外面。官方解释:中文版...

歌浓酒庄总酿酒师:我们有最好的葡萄园和最棒的酿酒师

中新网1月23日电1月18日,张裕董事长周洪江及总经理孙健一行在澳大利亚阿德莱德,完成了歌浓酒庄股权交割签约仪式,这也意味着张裕全球布局基本成型。歌浓:澳大利亚年度最佳酒庄据悉,此次张裕收购的...

软件测试进阶之自动化测试——python+appium实例

扼要:1、了解python+appium进行APP的自动化测试实例;2、能根据实例进行实训操作;本课程主要讲述用python+appium对APP进行UI自动化测试的例子。appium支持Androi...

为什么说Python是最伟大的语言?看图就知道了

来源:麦叔编程作者:麦叔测试一下你的分析能力,直接上图,自己判断一下为什么Python是最好的语言?1.有图有真相Java之父-JamesGoshlingC++之父-BjarneStrou...

如何在Eclipse中配置Python开发环境?

Eclipse是著名的跨平台集成开发环境(IDE),最初主要用来Java语言开发。但是我们通过安装不同的插件Eclipse可以支持不同的计算机语言。比如说,我们可以通过安装PyDev插件,使Eclip...

联合国岗位上新啦(联合国的岗位)

联合国人权事务高级专员办事处PostingTitleIntern-HumanRightsDutyStationBANGKOKDeadlineOct7,2025CategoryandL...

一周安全漫谈丨工信部:拟定超1亿条一般数据泄露属后果严重情节

工信部:拟定超1亿条一般数据泄露属后果严重情节11月23日,工信部官网公布《工业和信息化领域数据安全行政处罚裁量指引(试行)(征求意见稿)》。《裁量指引》征求意见稿明确了行政处罚由违法行为发生地管辖、...

oracle列转行以及C#执行语句时报错问题

oracle列转行的关键字:UNPIVOT,经常查到的怎么样转一列,多列怎么转呢,直接上代码(sshwomeyourcode):SELECTsee_no,diag_no,diag_code,...

取消回复欢迎 发表评论: