图解 Redis String 底层数据结构 SDS 与计数器实战
mhr18 2024-11-16 23:26 19 浏览 0 评论
我是 Redis,给开发者提供了 String(字符串)、Hashes(散列表)、Lists(列表)、Sets(无序集合)、Sorted Sets(可根据范围查询的排序集合)、Bitmap(位图)、HyperLogLog、Geospatial (地理空间)和 Stream(流)等数据类型。
接下来我要重点介绍的是,String 数据类型的使用技巧和使用场景,以及String 数据类型底层数据结构原理。
数据类型的使用技法和以及每种数据类型底层实现原理是你核心筑基必经之路,好好修炼。
筑基稳固,修炼心法,让你的程序更快还能做到极致节省内存。
2.1.1 String(字符串)
1. 是什么
字符串类型的使用最为广泛,比如计数器、缓存、分布式锁、用于存储登录后的用户信息,key = token,value = Java 对象序列化成 JSON 后的字符串。
如下指令。
SET user:token:666 {"name": "码哥",“gender”: “M”,“city”:"shenzhen"}
接下来,我先带你深入了解 String 类型,底层数据结构和使用场景。
?
MySQL:“你都是用 C 语言开发出来的,C 语言本就有字符串,吓唬谁呢。”
格局能不能打开一点,我并没有直接使用 C 语言的字符串,而是自己搞了一个 SDS 结构体来表示字符串。SDS 的全称是 Simple Dynamic String,中文叫做“简单动态字符串”。
?
MySQL:“搞 SDS 的目的是啥?”
字符串使用最为广泛,我要保证能支持丰富和高性能的字符串操作函数,能保存二进制数据,同时还能节省内存占用。
实现了你们领导平时经常对你们提出的既要又要还要的目标。
先看 C 语言字符串数组的结构。比如通过 char *s = "MageByte"定义字符串变量。
图2-1
注意,数组的最后一个字符串是 "\0",它表示字符串的结束。
因为 C 语言标准库 string.h中的字符串有以下几点不足,所以我才设计了 SDS。
- C 语言使用 char* 字符串数组来实现字符串,在创建字符串的时候就要需要手动检查和分配字符串空间。由于没有 length属性记录字符串长度,想要获取一个字符串长度就要从头开始遍历,直到 \0为止,作为唯快不破的我来说是不能容忍的。
- 无法做到“安全的二进制存储”:比如图片等二进制数据无法保存。无法存储 \0这种特殊字符是因为 \0 在 C 语言字符串中表示结尾。
- 字符串的扩容和缩容:char 数组的长度在创建字符串的时候就确定下来,如果想要追加数据,要重新申请一块空间,把追加后的字符串内容拷贝进去,再释放旧的空间,十分消耗资源。
2. 修炼心法
?
MySQL:“说说 SDS 结构体吧,你是如何解决这些问题的。”
为了存储字符串实际内容,我需要有一个 char 类型数组来存储,使用一个 int 类型的 len 字段用于记录 char 数组使用了多少字节。
除此之外,还要有一个 int 类型 的 alloc 字段记录分配的 char 数组总长度,alloc - len 就等于 char 类型的 buf 数组未使用的字节数(Redis 7.0 已经去掉了表示未使用字节数 free 字段)。
图2-2
SDS 也遵循 C 字符串以空字符“\0”结尾的惯例,保存空字符的大小不计算在 SDS 的 len 属性中。
此外,添加空字符串“\0” 到字符串末尾等操作,都是由 SDS 函数自动完成的。
O(1) 时间复杂度获取字符串长度
SDS 中 len 保存了字符串的长度,实现了O(1) 时间复杂度获取字符串长度。
你注意到了没,SDS 结构有一个 flags 字段,表示的是 SDS 类型。实际上 SDS 一共设计了 5 种类型,分别是sdshdr5、sdshdr8、sdshdr16、sdshdr32 和 sdshdr64,区别在于数组的 len 长度和分配空间长度 alloc。
比如 sdshdr8。
struct __attribute__ ((__packed__)) sdshdr8 {
uint8_t len;
uint8_t alloc;
unsigned char flags;
char buf[];
};
len、alloc 字段都是 uint8_t 这个类型,在 Java 中 int 就是 32 位,而 C 语言里面有不同长度的 int 值,uint8_t 就是占 8 位的无符号 int 值,能表示的最大值就是 2^8-1,那它的 buf 数组,最大长度就是 2^8 -1。
节省内存
之所以这么设计,就是为了针对不同大小的字符串,使用不同的 SDS 类型保存,从而节省内存占用。
?
MySQL:“SDS 能存储多大的字符串?”
alloc 表示当前 sds 结构允许容纳的最大字符长度, 比如 uint32_t alloc 的取值范围是 0~2^32 = 4294967296。理论上 char 数组最大长度为 4294967296,一个 char 字符占用一个字节,可以存储 4 G,更不用说 sdshdr64 了。
这些都是理论值,实际上 Redis 内部会限制最大的字符串长度是 512M。
编码格式
我还对 String 类型的数据采用了三种编码格式来存储,分别是 int、embstr、raw,你可使用 OBJECT encoding key 来查值对象所使用的编码类型。
编码选择流程如图 2-3 所示。
图 2-3
- int 编码,8 个字节的长整型,值是数字类型且数字的长度小于 20
- embstr,小于等于 44 字节的字符串。
- 大于 44 字节的字符串。
?
MySQL:“__attribute__ ((__packed__))是什么玩意?”
这是我使用了专门的编译优化手段来节省内存空间。作用就是告诉编译器,不要使用字节对齐的方式,而是采用紧凑的方式分配内存。
默认情况下,编译器会按照 8 字节对齐的方式分配内存,即使这个变量的大小不到 8 字节。
使用了 __attribute__ ((__packed__)) 定义结构体,编译器会按照实际占用来分配内存空间。
二进制安全
SDS 不仅可以存储 String 类型数据,还能存储二进制数据。SDS 并不是通过“\0” 来判断字符串结束,用的是 len 标志结束,所以可以直接将二进制数据存储。
空间预分配
在需要对 SDS 的空间进行扩容时,不仅仅分配所需的空间,还会分配额外的未使用空间。
通过预分配策略,减少了执行字符串增长所需的内存重新分配次数,降低由于字符串增加操作的性能损耗。
惰性空间释放
当对 SDS 进行缩短操作时,程序并不会回收多余的内存空间,如果后面需要 append 追加操作,则直接使用 buf 数组 alloc - len中未使用的空间。
通过惰性空间释放策略,避免了减小字符串所需的内存重新分配操作,为未来增长操作提供了优化。
3. 出招实战:分布式 ID 生成器
我相信你会经常遇到要生成唯一 ID 的场景,比如标识每次请求、生成一个订单编号、创建用户需要创建一个用户 ID。
分布式 ID 生成器需要满足以下特性。
- 有序性之单调递增,想要分而治之、二分法查找就必须实现。另外,MySQL 是你们用的最多的数据库,B+ 树为了维护 ID 的有序性,就会频繁的在索引的中间位置插入而挪动后面节点的位置,甚至导致频繁的页分裂,这对于性能的影响是极大的。
- 全局唯一性,ID 不唯一就会出现主键冲突。
- 高性能,生成 ID 是高频操作,如果性能缓慢,系统的整体性能都会受到限制。
- 高可用,也就是在给定的时间间隔内,一个系统总的可用时间占的比例。
- 存储空间小,用 MySQL 的 InnoDB B+树来说,普通索引(非聚集索引)会存储主键值,主键越大,每个 Page 页可以存储的数据就越少,访问磁盘 I/O 的次数就会增加。
Redis 集群能保证高可用和高性能,为了节省内存,ID 可以使用数字的形式,并且通过递增的方式来创建新的 ID。
防止重启数据丢失,你还需要把 Redis AOF 持久化开启。
?
MySQL:“开启 AOF 持久,为了性能设置成 everysec 策略还是有可能丢失一秒的数据,所以你还可以使用一个异步机制将生成的最大 ID 持久化到一个 MySQL。”
好主意,在生成 ID 之后发送一条消息到 MQ 消息队列中,把值持久化到 MySQL 中。
我提供了 INCR 指令,它能把 key 中存储的数字加 1 并返回客户端。如果 key 不存在,那么 key 的 value 先被初始化成 0,再执行加 1 操作并返回给客户端。
该指令的值限制在 64 位有符号数字之内。
设计思路
- 假设订单 ID 生成器的 key 是“counter:order”,当应用服务启动的时候先从数据库中查询出最大值 M。执行 EXISTS counter:order 判断是否存在 key。
- Redis 中不存在 key “counter:order”,执行 SET counter:order M 将 M 值作写入 Redis。
- Redis 中存在 key “counter:order”,值为 K,那么就比较 M 和 K 的值,执行 SET counter:order max(M, N)将最大值写入 Redis,相等的话就不操作。
- 应用服务启动完成后,每次需要生成 ID 的时候,应用程序就向 Redis 服务器发送 INCR counter:order指令。
- 应用程序将获取到的 ID 值发送到 MQ 消息队列,消费者监听队列把值更新到 MySQL。
图 2-4
String 类型的实战以及底层存储原理就到这里了!
原文链接:https://mp.weixin.qq.com/s/sEWCFNQntPDv8lZH9Lfzvw
相关推荐
- 【推荐】一个开源免费、AI 驱动的智能数据管理系统,支持多数据库
-
如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!.前言在当今数据驱动的时代,高效、智能地管理数据已成为企业和个人不可或缺的能力。为了满足这一需求,我们推出了这款开...
- Pure Storage推出统一数据管理云平台及新闪存阵列
-
PureStorage公司今日推出企业数据云(EnterpriseDataCloud),称其为组织在混合环境中存储、管理和使用数据方式的全面架构升级。该公司表示,EDC使组织能够在本地、云端和混...
- 对Java学习的10条建议(对java课程的建议)
-
不少Java的初学者一开始都是信心满满准备迎接挑战,但是经过一段时间的学习之后,多少都会碰到各种挫败,以下北风网就总结一些对于初学者非常有用的建议,希望能够给他们解决现实中的问题。Java编程的准备:...
- SQLShift 重大更新:Oracle→PostgreSQL 存储过程转换功能上线!
-
官网:https://sqlshift.cn/6月,SQLShift迎来重大版本更新!作为国内首个支持Oracle->OceanBase存储过程智能转换的工具,SQLShift在过去一...
- JDK21有没有什么稳定、简单又强势的特性?
-
佳未阿里云开发者2025年03月05日08:30浙江阿里妹导读这篇文章主要介绍了Java虚拟线程的发展及其在AJDK中的实现和优化。阅前声明:本文介绍的内容基于AJDK21.0.5[1]以及以上...
- 「松勤软件测试」网站总出现404 bug?总结8个原因,不信解决不了
-
在进行网站测试的时候,有没有碰到过网站崩溃,打不开,出现404错误等各种现象,如果你碰到了,那么恭喜你,你的网站出问题了,是什么原因导致网站出问题呢,根据松勤软件测试的总结如下:01数据库中的表空间不...
- Java面试题及答案最全总结(2025版)
-
大家好,我是Java面试陪考员最近很多小伙伴在忙着找工作,给大家整理了一份非常全面的Java面试题及答案。涉及的内容非常全面,包含:Spring、MySQL、JVM、Redis、Linux、Sprin...
- 数据库日常运维工作内容(数据库日常运维 工作内容)
-
#数据库日常运维工作包括哪些内容?#数据库日常运维工作是一个涵盖多个层面的综合性任务,以下是详细的分类和内容说明:一、数据库运维核心工作监控与告警性能监控:实时监控CPU、内存、I/O、连接数、锁等待...
- 分布式之系统底层原理(上)(底层分布式技术)
-
作者:allanpan,腾讯IEG高级后台工程师导言分布式事务是分布式系统必不可少的组成部分,基本上只要实现一个分布式系统就逃不开对分布式事务的支持。本文从分布式事务这个概念切入,尝试对分布式事务...
- oracle 死锁了怎么办?kill 进程 直接上干货
-
1、查看死锁是否存在selectusername,lockwait,status,machine,programfromv$sessionwheresidin(selectsession...
- SpringBoot 各种分页查询方式详解(全网最全)
-
一、分页查询基础概念与原理1.1什么是分页查询分页查询是指将大量数据分割成多个小块(页)进行展示的技术,它是现代Web应用中必不可少的功能。想象一下你去图书馆找书,如果所有书都堆在一张桌子上,你很难...
- 《战场兄弟》全事件攻略 一般事件合同事件红装及隐藏职业攻略
-
《战场兄弟》全事件攻略,一般事件合同事件红装及隐藏职业攻略。《战场兄弟》事件奖励,事件条件。《战场兄弟》是OverhypeStudios制作发行的一款由xcom和桌游为灵感来源,以中世纪、低魔奇幻为...
- LoadRunner(loadrunner录制不到脚本)
-
一、核心组件与工作流程LoadRunner性能测试工具-并发测试-正版软件下载-使用教程-价格-官方代理商的架构围绕三大核心组件构建,形成完整测试闭环:VirtualUserGenerator(...
- Redis数据类型介绍(redis 数据类型)
-
介绍Redis支持五种数据类型:String(字符串),Hash(哈希),List(列表),Set(集合)及Zset(sortedset:有序集合)。1、字符串类型概述1.1、数据类型Redis支持...
- RMAN备份监控及优化总结(rman备份原理)
-
今天主要介绍一下如何对RMAN备份监控及优化,这里就不讲rman备份的一些原理了,仅供参考。一、监控RMAN备份1、确定备份源与备份设备的最大速度从磁盘读的速度和磁带写的带度、备份的速度不可能超出这两...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracle位图索引 (63)
- oracle批量插入数据 (62)
- oracle事务隔离级别 (53)
- oracle 空为0 (50)
- oracle主从同步 (55)
- oracle 乐观锁 (51)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)