百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

质量视角下的系统稳定性保障--稳定性保障常态化自动化实践

mhr18 2025-05-21 15:06 6 浏览 0 评论

作者:京东物流 翁美婷

一、前言

随着系统数量增多,复杂度提高,线上应急问题时有发生;加之需投入大量人力进行服务治理和验证,为了减少日常应急问题及提前排除风险,发起对生产系统的持续综合性治理,实现常态化稳定性治理。在常态化治理过程中我们将识别问题等重复性有规律的工作实现自动化,技术人员更专注于解决问题。




二、稳定性治理常态化




保障稳定性治理常态化,部门组建了一支由研发团队、测试团队、架构师组成的稳定性治理队伍,对部门核心应用,核心服务风险、服务器资源风险、日志风险、性能防劣化、以及技术专项等多维度持续风险识别和治理。

1、核心服务风险:重点关注服务响应时间TP99跳点、响应时间max跳点、可用率小于100%、秒级调用量1500次以上TP99性能等。

2、服务器资源风险:巡检的服务器有应用服务器、DB、MDC、ES、Redis、Tidb、ClickHouse等;关注指标:CPU、内存、磁盘、网络……;注意不同的服务器关注的指标侧重点不同。

3、性能防劣化:针对服务和资源的性能指标分析峰值、趋势、对比及偏差情况识别系统的劣化发生。服务维度:UMP调用量、响应时间、可用率;资源维度:主机CPU、内存、磁盘,数据库慢SQL、QPS;其他中间件:JVM等。

4、日志风险治理:日志问题包含异常日志治理、日志规范性、日志清理及磁盘监控、日志级别动态配置等方面。

5、其他专项常态化:性能测试覆盖日常架构升级、重点项目需求,安全测试针对代码安全、组件安全、敏感接口、数据安全的专项测试,数据库慢SQL、数据结转、主从延迟等,针对内部外的应急问题架构和质量复盘借鉴,识别自身系统可以改进提升项。

此外,应急薄弱点专项、应急演练、接口限流风险等各类稳定性保障专项持续推进。

三、稳定性治理自动化

常态化治理的痛点:部门应用多,覆盖全部应用耗费大量时间人力,当增加review项时,工作量大幅增加,落地难度增大。如何提升review效率和可落地性?

自动化解决问题

1、线上问题巡检自动化,降低重复性人力工作,研发更专注于问题优化和高可用建设。

2、丰富风险项检测,风险项扩充不会额外增加大量人力排查

3、部门全盘稳定性监控,问题检测能力复用,从核心服务review复制到全量不需要增加人力。




自动化过程

1、定义问题:明确指标,确定异常规则。在稳定性常态治理过程沉淀了一套覆盖核心服务风险、服务器资源风险、日志风险、性能防劣化、以及其他专项的风险项和识别方法,这部分是问题的来源。

2、自动识别:自动巡检,识别线上异常。数据来源于两部分,已有的UMP、Logbook、MDC,此外来源还有压测数据、SLA定义等。

3、闭环问题:工单跟进,提升闭环效率,通过问题线上报表跟踪治理进度,每日/每周的定时巡检,回归验证,检验修复效果。

四、治理实践

从UMP异常、资源异常、性能防劣化、logbook异常关键字、等维度线上服务稳定性治理实践案例。

1、UMP异常-可用率<100%

案例:

1、定义问题:可用率<100%

2、自动识别问题:获取T+1的UMPkey监控数据,获取可用率小于100异常点信息,统计可用率小于100的次数,最低可用率及对应的时间为辅助排查问题的依据。

3、问题跟进:UMP监控
XXXServiceImpl.buildBusinessSummary可用率经常小于100%,排查因为正常业务问题未从方法监控ump可用率中剔除,通过主动上报提高报警精准度。




2、资源异常-磁盘使用率风险

案例:

1、定义问题:磁盘使用率>80%

2、自动识别问题:获取T+1的资源监控数据,获取磁盘/和/export的磁盘使用率>80%信息,统计出现次数,最高利用率及对应的时间。

3、问题跟进:0级应用服务器磁盘使用超过80%,优化log4j配置,补充监控报警。




3、Logbook关键字-空指针异常

案例:

1、定义问题:

log关键字分为程序类异常和业务类异常关键字:

(1)业务类异常:业务异常时主动输出的错误日志,例如“下单失败”,各系统根据需要自行打印和配置

(2)程序类异常:程序出现预期外的异常,自动抛出的错误日志,例如:NullPointerException

2、识别问题:某应用日志报空指针异常。





4、 性能防劣化-CPU劣化

案例:CPU劣化案例

2月5日11:00-19:20之间核心鉴权服务分组机器12台服务器CPU使用率先后峰值13%到27%异常增长,并持续高于日常值,对外提供服务无明显异常,客户无感知。对服务JVM分析发现,频繁FullGC引起CPU升高,打印堆栈信息某中间件占用内存1.4G(JVM共4G),经与中间件团队沟通当前版本存在线程池资源无法释放问题。




五、结语

通过自动化的方式每日对线上核心UMP、Logbook、主机、数据库、ES、Redis风险进行巡检,降低人工review工作量。稳定性治理重在持续,过程中可能会遇到痛点和艰难,值得技术人用技术不断提升。

相关推荐

几种 TCP 连接中出现 RST 的情况

现在是一个网络时代了。应该不少程序员在编程中需要考虑多机、局域网、广域网的各种问题。所以网络知识也是避免不了学习的。而且笔者一直觉得TCP/IP网络知识在一个程序员知识体系中必需占有一席之地的。在...

Redis连接使用报RDB error错误

该错误信息:Errorinexecution;nestedexceptionisio.lettuce.core.RedisCommandExecutionException:MISC...

lua 语法介绍与 NGINX lua 高级用法实战操作

一、概述lua是一种轻量小巧的脚本语言,用标准C语言编写并以源代码形式开放,其设计目的是为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能。官网:https://www.lua.org/二、l...

Python教程——20.协程 - 2

异步编程asyncio.Future对象Task继承Future,Task对象内部中的await结果的处理基于Future对象来的在Future对象中会保存当前执行的这个协程任务的状态,如果当...

“我的足迹”、“浏览历史”,Redis如何快速记录与展示?

咱们在网上“买买买”、“逛逛逛”的时候,总会留下各种各样的“足迹”。无论是电商APP里你最近浏览过的商品,视频网站上你刚刚看过的剧集,还是新闻客户端里你点开过的文章……这些“历史记录”,有时候还真挺有...

你手机上的“消息推送”,Redis可能参与其中

手机上那些时不时就“叮咚”一下的消息推送,确实是咱们数字生活里不可或缺的一部分。这篇咱们就来聊聊,Redis这位“消息灵通人士”,是如何在这场“信息接力赛”中大显身手,确保那些重要的、有趣的通知,能够...

短视频APP的“附近的人”,Redis如何快速匹配?

刷短视频,除了看各种搞笑段子、才艺展示,有时候是不是也想看看“同城”或者“附近”的人都在发些啥有意思的内容?或者,平台也会时不时地给你推荐一些“附近正在直播”的主播,让你感觉一下子拉近了和这个虚拟世界...

微信朋友圈的点赞、评论,Redis在背后默默付出

微信朋友圈,这片小小的“自留地”,承载了我们多少喜怒哀乐、生活点滴啊!一张精心修饰的照片,一段随感而发的文字,发出去之后,最期待的是什么?那必须是屏幕下方不断冒出来的小红心和一条条真诚(或者商业互吹)...

网站登录老是掉线?Redis帮你记住你是谁!

有没有过这样的糟心体验?你好不容易登录了一个网站,刚看了两篇帖子,或者购物车里刚加了几件宝贝,结果一刷新页面,或者稍微离开了一会儿,回来就发现——“哎?我怎么又退出了?!”又得重新输入用户名、密码、...

你常用的APP,哪些地方可能用到了Redis?(猜想与分析)

咱们现在的生活,简直是离不开各种各样的手机APP了!从早上睁眼刷新闻,到中午点外卖,再到晚上刷短视频、玩游戏,一天到头,指尖在屏幕上就没停过。这些APP为了让我们用得爽、用得顺心,背后可是使出了浑身解...

Redis是啥?为啥程序员天天挂嘴边?小白也能看懂!

这Redis到底是何方神圣?为啥那些天天在电脑前敲代码的程序员小哥哥小姐姐们,老是把它挂在嘴边,好像离了它地球都不转了似的?别担心,咱们今天不说那些听了就头大的代码和术语,就用大白话,保证你听完一拍大...

面试官:请你说说Redis为什么这么快?

1)Redis是基于内存的存储数据库,绝大部分的命令处理只是纯粹的内存操作,内存的读写速度非常快。2)Redis是单进程线程的服务(实际上一个正在运行的RedisServer肯定不止一个线程,但只有...

有了强大的关系型数据库,为什么还需要Redis?

在数字世界的浩瀚海洋中,关系型数据库,例如我们熟知的MySQL、PostgreSQL或Oracle,无疑是那些承载着核心业务数据、坚如磐石的“国家图书馆”或“银行金库”。它们以严谨的结构、强大的事务处...

Java 中间件数据可靠性串讲:从 MQ 、MySQL、Redis 不丢失的保障之道

引言在现代分布式系统中,中间件扮演着至关重要的角色,它们是构建高可用、高性能、高可扩展应用架构的基石。消息队列(MQ)、数据库(如MySQL)、缓存(如Redis)等是其中最具代表性的组件。然而,...

运维部署方式之——虚机部署

标准化使用作業系统:LinuxCentOS7自动化方式通过Ansible系统初始化playbook来管理。目的系统初始化工作是一个简单、繁复的工作,从云网得到的虚拟主机只是一个基础的系统环境,...

取消回复欢迎 发表评论: