百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

Redis单点故障解决方案实践

mhr18 2024-12-04 13:27 18 浏览 0 评论

Redis单点故障解决方案实践

一、网络拓扑

二、Redis的HA简明方案

1、使用工具:

keepalive服务:实现心跳功能、浮动IP设置、业务监控脚本调用

shell脚本:业务服务监控、切换master/slave以后的业务操作、服务异常情况的日志记录

2、故障类型:

Redis进程异常

服务器宕机、关机、重启

网络中断

3、切换方案

Master: A(192.168.1.101:6379)

Slave: B(192.168.1.102:6379)

浮动IP: 192.168.1.100:6379

(1)开机启动server A和B;

(2)运行A的redis进程,运行B的redis进程;

(3)运行A的keepalived进程,运行B的keepalived进程,

此时A为master,B为slave;

(4) master主机A上通过监测脚本,检测到业务异常,降级为slave

(5) slave主机B升级为master

(6) 切换为slave后的原master主机A执行“slaveof 192.168.1.102 6379”,成为当前主机B的slave

(7) 切换为master后的原slave主机B执行“slaveof no one”,成为master主机

4、思考及注意

(1)当master切换为slave以后,如果master恢复正常,是否重新切换为master?

目前选择“非抢占式”,即保持现状,不再进行切换。

(2)当redis进行master和backup切换以后,redis-X-Y-Z的机器将全量获取“新浮动VIP主机”的redis数据。

三、测试环境及用例

测试环境:

A:192.168.1.101

B:192.168.1.102

VIP:192.168.1.100

C:192.168.1.103

用例:

(1)测试AB

启动A、B;

运行A的redis,运行B的redis;

运行A的keepalived,运行B的keepalived;

此时浮动VIP被设置在A上。

Kill掉A上的redis服务;

此时浮动 VIP被设置在B上。

运行A的redis;

此时浮动VIP依然被设置在B上。

Kill掉B上的redis服务;

此时浮动VIP被设置在A上。

(2)测试AB

启动A、B;

运行A的redis,运行B的redis;

运行A的keepalived,运行B的keepalived;

此时浮动VIP被设置在A上。

重启A;

此时浮动 VIP被设置在B上。

A启动完成;

此时浮动VIP依然被设置在B上。

重启B;

此时浮动VIP被设置在A上。

(3)测试AB

启动A、B;

运行A的redis,运行B的redis;

运行A的keepalived,运行B的keepalived;

此时浮动VIP被设置在A上。

Kill掉A上的keepalived服务;

此时浮动 VIP被设置在B上。

运行A的keepalived;

此时浮动VIP依然被设置在B上。

Kill掉B上的keepalived服务;

此时浮动VIP被设置在A上。

四、相关配置

(1)keepavlied配置文件

master端:

global_defs {

notification_email {

xxxx@xxxx.com

}

notification_email_from os@xxxx.com

smtp_server mail.xxxx.com

smtp_connect_timeout 30

router_id os_82

}

vrrp_script chk_redis {

script "/xxxx/scripts/redis_check.sh"

interval 2

}

vrrp_instance VI_82 {

state BACKUP (将优先级高的主机也设置为BACKUP)

interface eth0

virtual_router_id 52

priority 101

advert_int 1

nopreempt (配合上面的state BACKUP,可以实现非抢占)

smtp_alert

authentication {

auth_type PASS

auth_pass redis

}

track_script {

chk_redis

}

virtual_ipaddress {

192.168.1.100

}

notify_master /xxxx/scripts/redis_master.sh

notify_backup /xxxx/scripts/redis_backup.sh

notify_fault /xxxx/scripts/redis_fault.sh

notify_stop /xxxx/scripts/redis_stop.sh

}

Backup端:

global_defs {

notification_email {

xxxx@xxxx.com

}

notification_email_from os @xxxx.com

smtp_server mail.xxxx.com

smtp_connect_timeout 30

router_id os_83

}

vrrp_script chk_redis {

script "/xxxx/scripts/redis_check.sh"

interval 2

}

vrrp_instance VI_83 {

state BACKUP

interface eth0

virtual_router_id 52

priority 100

advert_int 1

smtp_alert

authentication {

auth_type PASS

auth_pass redis

}

track_script {

chk_redis

}

virtual_ipaddress {

192.168.1.100

}

notify_master /xxxx/scripts/redis_master.sh

notify_backup /xxxx/scripts/redis_backup.sh

notify_fault /xxxx/scripts/redis_fault.sh

notify_stop /xxxx/scripts/redis_stop.sh

}

(2)shell脚本及调用时机

redis_check.sh检测系统中redis-server服务是否正常

redis_master.sh状态改变为BACKUP后执行的脚本

redis_backup.sh状态改变为BACKUP后执行的脚本

redis_fault.sh状态改变为FAULT后执行的脚本

redis_stop.sh: VRRP心跳停止后后执行的脚本

(3)脚本实例

1、Redis_check.sh

#!/bin/bash

ALIVE=`/xxxx/redis-3.0.4/src/redis-cli PING`

if [ "$ALIVE" == "PONG" ]; then

echo $ALIVE

exit 0

else

echo $ALIVE

exit 1

fi

2、redis_master.sh

#!/bin/bash

REDISCLI="/xxxx/redis-3.0.4/src/redis-cli"

LOGFILE="/xxxx/log/keepalived-redis-state.log"

TIME=`date +%Y-%m-%d" "%H:%m:%S`

echo "$TIME [Being master....]" >> $LOGFILE 2>&1

sleep 1

$REDISCLI SLAVEOF NO ONE >> $LOGFILE 2>&1

echo "$TIME [Run cmd "SLAVEOF NO ONE" OK]" >> $LOGFILE 2>&1

3、redis_backup.sh

Master端:

#!/bin/bash

REDISCLI="/xxxx/redis-3.0.4/src/redis-cli"

LOGFILE="/xxxx/log/keepalived-redis-state.log"

TIME=`date +%Y-%m-%d" "%H:%m:%S`

echo "$TIME [Being slave....]" >> $LOGFILE 2>&1

sleep 2

$REDISCLI SLAVEOF 192.168.1.101/102 6379 >> $LOGFILE 2>&1

echo "$TIME [Run cmd "SLAVEOF 192.168.1.101/102 6379" OK]" >> $LOGFILE 2>&1

1

4、redis_fault.sh

#!/bin/bash

LOGFILE="/xxxx/log/keepalived-redis-state.log"

TIME=`date +%Y-%m-%d" "%H:%m:%S`

echo "$TIME [fault]" >> $LOGFILE 2>&1

5、redis_stop.sh

#!/bin/bash

LOGFILE="/xxxx/log/keepalived-redis-state.log"

TIME=`date +%Y-%m-%d" "%H:%m:%S`

echo "$TIME [stop]" >> $LOGFILE 2>&1

6、redis.conf增加的配置

Redis的客户端ping服务端的时间间隔

repl-ping-slave-period 9

Redis的客户端和服务端无连接的超时时间

repl-timeout 10

五、其他注意事项

对于192.168.1.101/102如果出现浮动IP消失的异常情况,

可以手动设置 ip addr add dev eth1 192.168.1.100;

删除浮动IP的操作,ip addr del dev eth1 192.168.1.100

5、修改redis配置

增加socket连接断开超时配置,需要的redis机器包括:192.168.1.104-6结点。

配置如下:repl-ping-slave-period 9、repl-timeout 10

设置命令:

CONFIG GET repl-ping-slave-period

查询设置:

CONFIG GET repl-ping-slave-period

1) "repl-ping-slave-period"

2) "10"

相关推荐

Dubai's AI Boom Lures Global Tech as Emirate Reinvents Itself as Middle East's Silicon Gateway

AI-generatedimageAsianFin--Dubaiisrapidlytransformingitselffromadesertoilhubintoaglob...

OpenAI Releases o3-pro, Cuts o3 Prices by 80% as Deal with Google Cloud Reported to Make for Compute Needs

TMTPOST--OpenAIisescalatingthepricewarinlargelanguagemodel(LLM)whileseekingpartnershi...

黄仁勋说AI Agent才是未来!但究竟有些啥影响?

,抓住风口(iOS用户请用电脑端打开小程序)本期要点:详解2025年大热点你好,我是王煜全,这里是王煜全要闻评论。最近,有个词被各个科技大佬反复提及——AIAgent,智能体。黄仁勋在CES展的发布...

商城微服务项目组件搭建(五)——Kafka、Tomcat等安装部署

1、本文属于mini商城系列文档的第0章,由于篇幅原因,这篇文章拆成了6部分,本文属于第5部分2、mini商城项目详细文档及代码见CSDN:https://blog.csdn.net/Eclipse_...

Python+Appium环境搭建与自动化教程

以下是保姆级教程,手把手教你搭建Python+Appium环境并实现简单的APP自动化测试:一、环境搭建(Windows系统)1.安装Python访问Python官网下载最新版(建议...

零配置入门:用VSCode写Java代码的正确姿

一、环境准备:安装JDK,让电脑“听懂”Java目标:安装Java开发工具包(JDK),配置环境变量下载JDKJava程序需要JDK(JavaDevelopmentKit)才能运行和编译。以下是两...

Mycat的搭建以及配置与启动(mycat2)

1、首先开启服务器相关端口firewall-cmd--permanent--add-port=9066/tcpfirewall-cmd--permanent--add-port=80...

kubernetes 部署mysql应用(k8s mysql部署)

这边仅用于测试环境,一般生产环境mysql不建议使用容器部署。这里假设安装mysql版本为mysql8.0.33一、创建MySQL配置(ConfigMap)#mysql-config.yaml...

Spring Data Jpa 介绍和详细入门案例搭建

1.SpringDataJPA的概念在介绍SpringDataJPA的时候,我们首先认识下Hibernate。Hibernate是数据访问解决技术的绝对霸主,使用O/R映射(Object-Re...

量子点格棋上线!“天衍”邀您执子入局

你是否能在策略上战胜量子智能?这不仅是一场博弈更是一次量子智力的较量——量子点格棋正式上线!试试你能否赢下这场量子智局!游戏玩法详解一笔一画间的策略博弈游戏目标:封闭格子、争夺领地点格棋的基本目标是利...

美国将与阿联酋合作建立海外最大的人工智能数据中心

当地时间5月15日,美国白宫宣布与阿联酋合作建立人工智能数据中心园区,据称这是美国以外最大的人工智能园区。阿布扎比政府支持的阿联酋公司G42及多家美国公司将在阿布扎比合作建造容量为5GW的数据中心,占...

盘后股价大涨近8%!甲骨文的业绩及指引超预期?

近期,美股的AI概念股迎来了一波上升行情,微软(MSFT.US)频创新高,英伟达(NVDA.US)、台积电(TSM.US)、博通(AVGO.US)、甲骨文(ORCL.US)等多股亦出现显著上涨。而从基...

甲骨文预计新财年云基础设施营收将涨超70%,盘后一度涨8% | 财报见闻

甲骨文(Oracle)周三盘后公布财报显示,该公司第四财季业绩超预期,虽然云基建略微逊于预期,但管理层预计2026财年云基础设施营收预计将增长超过70%,同时资本支出继上年猛增三倍后,新财年将继续增至...

Springboot数据访问(整合MongoDB)

SpringBoot整合MongoDB基本概念MongoDB与我们之前熟知的关系型数据库(MySQL、Oracle)不同,MongoDB是一个文档数据库,它具有所需的可伸缩性和灵活性,以及所需的查询和...

Linux环境下,Jmeter压力测试的搭建及报错解决方法

概述  Jmeter最早是为了测试Tomcat的前身JServ的执行效率而诞生的。到目前为止,它的最新版本是5.3,其测试能力也不再仅仅只局限于对于Web服务器的测试,而是涵盖了数据库、JM...

取消回复欢迎 发表评论: