作为分布式系统的核心基础设施之一，消息中间件在高并发、解耦、异步处理等场景中发挥着重要作用。但在实际生产环境中，消息丢失、堆积、服务中断等问题却如同定时炸弹，稍有不慎就会引发线上故障。本文将结合笔者的实战踩坑经历，总结常见问题场景及解决方案。

一、消息丢失：看不见的"黑洞"

典型场景

生产端丢失：网络抖动导致消息未成功发送，但业务代码未做重试处理
Broker端丢失：未开启持久化配置时服务器宕机，内存消息全部丢失
消费端丢失：消息处理失败但错误吞没，未触发重试机制

实战案例

某订单系统使用Kafka时，曾因生产者配置acks=0（不等待Broker确认）导致促销高峰期丢失上万订单创建消息。直到对账系统报警才发现数据差异。

解决方案

生产端保障：
java

// RocketMQ示例：同步发送+重试机制
SendResult sendResult = producer.send(msg, new SendCallback() {
    @Override
    public void onSuccess(SendResult sendResult) {
        // 记录成功日志
    }
    
    @Override
    public void onException(Throwable e) {
        // 重试逻辑（建议指数退避）
        retryExecutor.schedule(() -> send(msg), retryCount, TimeUnit.SECONDS);
    }
});

Broker持久化：
Kafka配置log.flush.interval.messages=10000（每1w条刷盘）
RocketMQ开启同步刷盘（flushDiskType=SYNC_FLUSH）
消费端确认：
java

// RabbitMQ手动ACK示例
channel.basicConsume(queue, false, (consumerTag, delivery) -> {
    try {
        processMessage(delivery.getBody());
        channel.basicAck(deliveryTag, false); // 处理成功才ACK
    } catch (Exception e) {
        channel.basicNack(deliveryTag, false, true); // 失败重入队列
    }
});

二、消息堆积：突发的"雪崩"前兆

预警信号

监控面板显示积压量持续增长
消费者CPU/内存长期高位运行
业务处理延迟超过SLA阈值

处理步骤

紧急止血：
生产端限流：通过Sentinel对生产者降级
扩容消费者：快速增加Consumer实例数（Kafka可动态调整partition）
根因排查：
消费者性能分析：Arthas跟踪慢方法，检查DB慢查询/Redis大Key
消息体检查：是否因异常大消息（如10MB的JSON）导致反序列化卡顿
批量处理优化：
java

// Spring Kafka批量消费配置
@KafkaListener(topics = "order_topic", containerFactory = "batchFactory")
public void batchConsume(List<ConsumerRecord> records) {
    records.forEach(record -> {
        // 使用并行流加速处理
        processInParallel(record.value());
    });
}

死信队列兜底：将重试超过3次的消息转入死信队列，避免阻塞正常流量

三、服务中断：链式反应的导火索

常见诱因

网络分区：机房光纤被挖断导致Broker不可达
集群脑裂：ZooKeeper会话超时引发选举风暴
磁盘故障：RAID卡损坏导致消息存储失败

容灾方案

多机房部署：
Kafka配置机架感知（broker.rack=zone1）
RocketMQ搭建双主双从跨机房集群
故障转移演练：
shell

# 模拟Broker宕机
kubectl delete pod kafka-broker-0 --force --grace-period=0

客户端容错：
java

// 生产端自动切换Broker
producer.setRetryTimesWhenSendFailed(3);
producer.setRetryAnotherBrokerWhenNotStoreOK(true);

四、最佳实践与避坑指南

监控三板斧：
Prometheus采集吞吐量、积压量、处理延迟
ELK收集客户端/Broker日志，设置关键词报警（如"Connection refused"）
链路追踪：通过SkyWalking跟踪消息全生命周期
压测先行：
shell

# Kafka压测工具
kafka-producer-perf-test --topic stress_test --num-records 1000000 --record-size 1024 --throughput -1 --producer-props bootstrap.servers=localhost:9092

冗余设计：
重要业务消息落本地数据库，通过定时任务补偿发送
消费端处理逻辑保证幂等性

结语

消息中间件的稳定性直接关系到整个系统的可靠性。通过多级确认机制、容量规划、全链路监控的三重保障，结合定期故障演练，才能将"丢、积、断"三大难题化解于无形。记住：没有绝对可靠的中间件，只有不断完善的容错设计。

消息中间件踩坑总结:如何应对消息丢失、堆积与中断

一、消息丢失：看不见的"黑洞"

典型场景

实战案例

解决方案

二、消息堆积：突发的"雪崩"前兆

预警信号

处理步骤

三、服务中断：链式反应的导火索

常见诱因

容灾方案

四、最佳实践与避坑指南

结语

相关推荐

取消回复欢迎你发表评论:

生产系统数据库操作规范(2):（数据库生产库是什么意思）

Redis客户端 Jedis 与 Lettuce

高并发架构系列:Redis并发竞争key的解决方案详解

redis如何防止并发（redis如何防止高并发）

开源推荐:如何实现的一个高性能 Redis 服务器

redis安装与调优部署文档(WinServer)

Redis 入门 - 安装最全讲解(Windows、Linux、Docker)

一文带你了解 Redis 的发布与订阅的底层原理

Redis如何应对并发访问（redis控制并发量）

Java SE Development Kit 8u441下载地址【windows版本】

消息中间件踩坑总结:如何应对消息丢失、堆积与中断

一、消息丢失：看不见的"黑洞"

典型场景

实战案例

解决方案

二、消息堆积：突发的"雪崩"前兆

预警信号

处理步骤

三、服务中断：链式反应的导火索

常见诱因

容灾方案

四、最佳实践与避坑指南

结语

相关推荐

取消回复欢迎 你 发表评论:

生产系统数据库操作规范(2):（数据库生产库是什么意思）

Redis客户端 Jedis 与 Lettuce

高并发架构系列:Redis并发竞争key的解决方案详解

redis如何防止并发（redis如何防止高并发）

开源推荐:如何实现的一个高性能 Redis 服务器

redis安装与调优部署文档(WinServer)

Redis 入门 - 安装最全讲解(Windows、Linux、Docker)

一文带你了解 Redis 的发布与订阅的底层原理

Redis如何应对并发访问（redis控制并发量）

Java SE Development Kit 8u441下载地址【windows版本】

取消回复欢迎你发表评论: