百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

深入学习Redis之缓存设计与优化(redis缓存设计思路)

mhr18 2024-11-05 10:23 30 浏览 0 评论

缓存的使用与设计

缓存的收益与成本

收益:

加速读写
降低后端负载

成本:

数据不一致
代码维护成本
运维成本

使用场景:

降低后端负载
加速请求响应
大量写合并为批量写

缓存更新策略

缓存中的数据通常都是有生命周期的,需要在指定时间后被删除或更新,这样可以保证缓存空间在一个可控的范围。

但是缓存中的数据会和数据源中的真实数据有一段时间窗口的不一致,需要 利用某些策略进行更新

下面将分别从使用场景、一致性、开发人员开发/维护成本三个方面介绍三种缓存的更新策略。

LRU/LFU/FIFO 算法剔除

LRU:Least Recently Used,最近最少使用。

LFU:Least Frequently Used,最不经常使用。

FIFO:First In First Out,先进先出。

使用场景:剔除算法通常用于缓存使用量超过了预设的最大值时候,如何对现有的数据进行剔除。例如 Redis 使用 maxmemory-policy 这个配置作为内存最大值后对于数据的剔除策略。

一致性:要清理哪些数据是由具体算法决定,开发人员只能决定使用哪种算法,所以数据的一致性是最差的。

维护成本:算法不需要开发人员自己来实现,通常只需要配置最大 maxmemory对应的策略即可。

超时剔除

使用场景:超时剔除通过给缓存数据设置过期时间,让 其在过期时间后自动删除 ,例如 Redis 提供的 expire 命令。如果业务可以容忍一段时间内,缓存层数据和存储层数据不一致, 那么可以为其设置过期时间 。在数据过期后,再从真实数据源获取数据,重新放到缓存并设置过期时间。

一致性:一段时间窗口内(取决于过期时间长短)存在一致性问题,即缓存数据和真实数据源的数据不一致。

维护成本:维护成本不是很高,只需设置 expire 过期时间即可,当然前提是应用方允许这段时间可能发生的数据不一致。

主动更新

使用场景:应用方对于数据的一致性要求高, 需要在真实数据更新后, 立即更新缓存数据 。例如可以利用消息系统或者其他方式通知缓存更新。

一致性:一致性最高,但如果主动更新发生了问题,那么这条数据很可能很长时间不会更新,所以建议 结合超时剔除 一起使用效果会更好。

维护成本:维护成本会比较高,开发者需要自己来完成更新,并保证更新操作的正确性。

总结

建议:

  • 低一致性业务 建议配置最大内存和淘汰策略的方式使用。
  • 高一致性业务 可以结合使用超时剔除和主动更新,这样即使主动更新出了问题,也能保证数据过期时间后删除脏数据。

缓存粒度控制

一般常用的架构就是缓存层使用 Redis,存储层使用 MySQL。

比如:我们现在需要缓存用户信息。

第一步:从 MySQL 查询,得到结果。

第二步:放入缓存中。

但是,我们是缓存 MySQL 查出的所有列呢,还是某一些比较重要常用的列。

上述这个问题就是缓存粒度问题。

下面将从 通用性空间占用代码维护 三个角度进行说明:

  • 通用性 :缓存全部数据比部分数据更加通用,但从实际经验看,很长时间内应用只需要几个重要的属性。
  • 空间占用:缓存全部数据要比部分数据占用更多的空间,可能存在以下问题:全部数据会造成内存的浪费。全部数据可能每次传输产生的网络流量会比较大,耗时相对较大,在极端情况下会阻塞网络。全部数据的序列化和反序列化的 CPU 开销更大。
  • 代码维护 :全部数据的优势更加明显,而部分数据一旦要加新字段需要修改业务代码,而且修改后通常还需要刷新缓存数据。

缓存穿透问题

缓存穿透是指 查询一个根本不存在的数据,缓存层和存储层都不会命中 ,通常出于容错的考虑,如果从存储层查不到数据则不写入缓存层。分为以下三步:

  1. 缓存层不命中。
  2. 存储层不命中,不将空结果写回缓存。
  3. 返回空结果。

缓存穿透带来的问题:

  • 缓存穿透将导致不存在的数据每次请求都要到存储层去查询, 失去了缓存保护后端存储的意义
  • 缓存穿透问题可能会 使后端存储负载加大 ,由于很多后端存储不具备高并发性,甚至可能造成后端存储宕掉。通常可以在程序中分别统计总调用数、缓存层命中数、存储层命中数,如果发现大量存储层空命中,可能就是出现了缓存穿透问题。

造成缓存穿透的原因:

  • 业务代码自身问题。
  • 一些恶意攻击、爬虫等。

穿透优化的方案:

  • 缓存空对象。
  • 布隆过滤器。

缓存空对象

其实也就是当第 2 步存储层没有命中后, 仍然将空对象保留到缓存层中 ,之后再访问这个数据将会从缓存中获取。

这样会带来两种问题:

  1. 空值做了缓存存储。意味着 缓存中需要更多的内存空间 。所以我们还需要针对这种空值增加一个过期时间,例如 1 分钟,3 分钟等等。具体还是根据业务来判断。
  2. 这样做后会造成短期内缓存层与存储层有一段时间数据不一致问题,可能会对业务有所影响,比如我们查询商品 ID 为 888,此时缓存层和存储层都没有此 ID 数据,我们进行空值缓存后,如果此时恰好添加了 ID 为 888 的数据,就会导致短期内不一致问题。此时可以 利用消息系统或者其他方式清除掉缓存层中的空对象

布隆过滤器

布隆过滤器是在访问缓存层和存储层之前, 将存在的 key 用布隆过滤器提前保存起来,做第一层拦截 。

这种方法 适用于数据命中不高、数据相对固定、实时性低(通常是数据集较大)的应用场景 ,代码维护较为复杂,但是缓存空间占用少。

缓存雪崩问题

由于 Cache 服务承载大量的请求,当 Cache 服务宕机后,大量的流量会直接压向后端组件 DB,造成级联故障。

优化方案

  1. 保证缓存高可用性,就算个别节点挂掉,依然还有别的可以提供服务。
  2. 依赖隔离组件为后端限流降级,比如使用 Hystrix。
  3. 提前演练。

无底洞问题

2010 年,Facebook 的 Memcache 节点已经达到了 3000 个,承载着 TB 级别的缓存数据。但开发和运维人员发现了一个问题,为了满足业务要求 添加了大量新 Memcache 节点,但是发现性能不但没有好转反而下降了 ,当时将这种现象称为缓存的“无底洞”现象。

那么为什么会产生这种现象呢,通常来说添加节点使得 Memcache 集群性能应该更强了,但事实并非如此。键值数据库由于通常采用哈希函数将 key 映射到各个节点上,造成 key 的分布与业务无关,但是 由于数据量和访问量的持续增长,造成需要添加大量节点做水平扩容,导致键值分布到更多的节点上 ,所以无论是 Memcache 还是 Redis 的分布式,批量操作通常 需要从不同节点上获取,相比于单机批量操作只涉及一次网络操作,分布式批量操作会涉及多次网络时间 。

优化思路

  • 命令本身的优化,例如:keys、hgetall、bigkey 等。
  • 减少网络通信次数。
  • 降低接入成本,例如客户端使用长连接/连接池、NIO 等。

我们下面重点 如何降低网络通信次数

串行 mget

由于 n 个 key 是比较均匀地分布在 Redis Cluster 的各个节点上,因此无法使用 mget 命令一次性获取,所以通常来讲要获取 n 个 key 的值,最简单的方法就是逐次执行 n 个 get 命令,这种操作 时间复杂度较高 ,它的 操作时间=n 次网络时间+n 次命令时间 。n 是 key 的数量,是最简单的实现方式但显然不是最优的。

串行 IO

Redis Cluster 使用 CRC16 算法计算出散列值,再取对 16383 的余数就可以算出 slot 值,有了这两个数据就可以 将属于同一个节点的 key 进行归档,得到每个节点的 key 列表,之后对每个节点执行 mget 或者 Pipeline 操作 。

它的操作时间=node 次网络时间+n 次命令时间。

这种方案比第一种要好一点,但是 如果节点数太多,还是有一定的性能问题

并行 IO

此方案是将方案 2 中的最后一步改为多线程执行,网络次数虽然还是节点个数,但由于使用多线程网络时间变为 O(1),这种方案会增加编程的复杂度。操作时间为 max_slow (node 网络时间)+n 次命令时间。

HASH_TAG

Redis Cluster 的 hash_tag 功能可以强制将多个 key 强制分配到 一个节点上, 它的操作时间 =1 次网络时间+n 次命令时间。

四种思路总结

热点 key 的重建优化

我们通常使用的“缓存+过期时间”的策略既可以加速数据读写,又保证数据的定期更新,这种模式基本能够满足绝大部分需求。但是 有两个问题如果同时出现,可能就会对应用造成致命的危害:

  • 当前 key 是一个 热点 key (例如一个热门的娱乐新闻),并发量非常大。
  • 重建缓存 不能在短时间完成,可能是一个复杂计算

在缓存失效的瞬间,有大量线程来重建缓存,造成后端负载加大,甚至可能会让应用崩溃。

我们需要制定如下目标:

  • 减少重建缓存的次数。
  • 数据尽可能一致。
  • 减少潜在危险。

下面我们讲解一下两种解决方案。

互斥锁

此方法 只允许一个线程重建缓存,其他线程等待重建缓存的线程执行完后 ,再重新从缓存获取数据即可。

我们可以使用 Redis 的 setnx 命令来实现互斥锁。

  1. 如果 Redis 数据存在则返回,不存在就进入第二步。
  2. 如果 setnx 结果为 true,说明没有其它线程重建,我们执行重建缓存逻辑。
  3. 如果 setnx 结果为 false,说明有其它的线程正在重建缓存,当前线程可以睡眠指定时间后再去获取缓存数据。

永远不过期

缓存层面:没有设置过期时间。

功能层面:为每个 value 设置一个逻辑过期时间,当发现超过逻辑过期时间后,会使用单独的线程去构建缓存。

此方法可以有效杜绝了热点 key 产生的问题,但 唯一不足的就是重构缓存期间,会出现数据不一致的情况 ,这取决于是否可以容忍这种不一致。

两种方案对比

相关推荐

【推荐】一个开源免费、AI 驱动的智能数据管理系统,支持多数据库

如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!.前言在当今数据驱动的时代,高效、智能地管理数据已成为企业和个人不可或缺的能力。为了满足这一需求,我们推出了这款开...

Pure Storage推出统一数据管理云平台及新闪存阵列

PureStorage公司今日推出企业数据云(EnterpriseDataCloud),称其为组织在混合环境中存储、管理和使用数据方式的全面架构升级。该公司表示,EDC使组织能够在本地、云端和混...

对Java学习的10条建议(对java课程的建议)

不少Java的初学者一开始都是信心满满准备迎接挑战,但是经过一段时间的学习之后,多少都会碰到各种挫败,以下北风网就总结一些对于初学者非常有用的建议,希望能够给他们解决现实中的问题。Java编程的准备:...

SQLShift 重大更新:Oracle→PostgreSQL 存储过程转换功能上线!

官网:https://sqlshift.cn/6月,SQLShift迎来重大版本更新!作为国内首个支持Oracle->OceanBase存储过程智能转换的工具,SQLShift在过去一...

JDK21有没有什么稳定、简单又强势的特性?

佳未阿里云开发者2025年03月05日08:30浙江阿里妹导读这篇文章主要介绍了Java虚拟线程的发展及其在AJDK中的实现和优化。阅前声明:本文介绍的内容基于AJDK21.0.5[1]以及以上...

「松勤软件测试」网站总出现404 bug?总结8个原因,不信解决不了

在进行网站测试的时候,有没有碰到过网站崩溃,打不开,出现404错误等各种现象,如果你碰到了,那么恭喜你,你的网站出问题了,是什么原因导致网站出问题呢,根据松勤软件测试的总结如下:01数据库中的表空间不...

Java面试题及答案最全总结(2025版)

大家好,我是Java面试陪考员最近很多小伙伴在忙着找工作,给大家整理了一份非常全面的Java面试题及答案。涉及的内容非常全面,包含:Spring、MySQL、JVM、Redis、Linux、Sprin...

数据库日常运维工作内容(数据库日常运维 工作内容)

#数据库日常运维工作包括哪些内容?#数据库日常运维工作是一个涵盖多个层面的综合性任务,以下是详细的分类和内容说明:一、数据库运维核心工作监控与告警性能监控:实时监控CPU、内存、I/O、连接数、锁等待...

分布式之系统底层原理(上)(底层分布式技术)

作者:allanpan,腾讯IEG高级后台工程师导言分布式事务是分布式系统必不可少的组成部分,基本上只要实现一个分布式系统就逃不开对分布式事务的支持。本文从分布式事务这个概念切入,尝试对分布式事务...

oracle 死锁了怎么办?kill 进程 直接上干货

1、查看死锁是否存在selectusername,lockwait,status,machine,programfromv$sessionwheresidin(selectsession...

SpringBoot 各种分页查询方式详解(全网最全)

一、分页查询基础概念与原理1.1什么是分页查询分页查询是指将大量数据分割成多个小块(页)进行展示的技术,它是现代Web应用中必不可少的功能。想象一下你去图书馆找书,如果所有书都堆在一张桌子上,你很难...

《战场兄弟》全事件攻略 一般事件合同事件红装及隐藏职业攻略

《战场兄弟》全事件攻略,一般事件合同事件红装及隐藏职业攻略。《战场兄弟》事件奖励,事件条件。《战场兄弟》是OverhypeStudios制作发行的一款由xcom和桌游为灵感来源,以中世纪、低魔奇幻为...

LoadRunner(loadrunner录制不到脚本)

一、核心组件与工作流程LoadRunner性能测试工具-并发测试-正版软件下载-使用教程-价格-官方代理商的架构围绕三大核心组件构建,形成完整测试闭环:VirtualUserGenerator(...

Redis数据类型介绍(redis 数据类型)

介绍Redis支持五种数据类型:String(字符串),Hash(哈希),List(列表),Set(集合)及Zset(sortedset:有序集合)。1、字符串类型概述1.1、数据类型Redis支持...

RMAN备份监控及优化总结(rman备份原理)

今天主要介绍一下如何对RMAN备份监控及优化,这里就不讲rman备份的一些原理了,仅供参考。一、监控RMAN备份1、确定备份源与备份设备的最大速度从磁盘读的速度和磁带写的带度、备份的速度不可能超出这两...

取消回复欢迎 发表评论: