Redis基本数据结构之哈希(redis 哈希算法)
mhr18 2024-11-14 16:25 23 浏览 0 评论
纸上得来终觉浅,绝知此事要躬行!
哈希,对于大家来说应该是比较熟悉的一种数据结构了,因为大多数的编程语言都实现了哈希结构,可能叫法不一样而已,比如字典。而且哈希的应用场景也是非常的多,就拿Redis来说,其实它本身就是一个大的哈希结构的数据库。
这里我们说的哈希结构,指的是Redis键值对中值的类型是哈希类型,也就是说值本身也是一个键值对结构。
我们按三部分来介绍:
- 内部编码
- 常用命令
- 典型应用场景
内部编码
哈希类型的内部编码有两种:压缩列表ziplist和哈希表hashtable。
有两个参数控制何时使用ziplist,何时使用hashtable,这两个参数在配置文件中,可以自由配置:
# Hashes are encoded using a memory efficient data structure when they have a
# small number of entries, and the biggest entry does not exceed a given
# threshold. These thresholds can be configured using the following directives.
hash-max-ziplist-entries 512
hash-max-ziplist-value 64
注释的意思:当哈希有少量的条目,并且最大的条目不超过给定的阈值时,使用内存高效的数据结构对其进行编码。可以使用以下指令配置这些阈值。需要注意的是,这两个参数的条件是并且的关系,也就是说,当不满足其中之一的时候,内部编码就自动变成hashtable了。那这两个参数是什么意思呢?从名字来看,其实大概可以猜出来:hash-max-ziplist-entries表示哈希中元素个数,默认是512个;hash-max-ziplist-value表示哈希中每个元素的值的大小,默认是64字节。当哈希类型中元素个数和大小满足参数配置时,Redis默认使用ziplist来存储哈希类型。
那么,ziplist和hashtable有什么区别呢?从配置看,当数据膨胀之后,才会使用hashtable作为内部编码,那么ziplist在小数据量时应该是比hashtable更有优势。
(1)压缩列表ziplist
压缩列表ziplist是Redis为了节约内存而开发的,是由一系列特殊编码的连续内存块组成的顺序型数据结构,它的结构如下
其中:zlbytes表示整个压缩列表占用的内存字节数,在内存重分配或者计算zlend的时候使用,是一个4字节的整型;zltail表示压缩列表表尾节点距离压缩列表的起始地址有多少个字节,通过这个偏移量,可以直接计算出表尾的地址,无需遍历压缩列表,也是一个4字节的整型;zllen表示压缩列表的节点数量,值得注意的是,这是一个2字节的整型,所以能表示的最大数量是65535,当zlen值是65535时,说明压缩列表的节点数量可能超过了能表示的最大数量,这时,需要遍历压缩列表才能得到真实的节点数量;field1、value1..等等表示的是压缩列表中的一个个节点,其中field表示哈希键,value表示哈希值;zlend是用来标记压缩列表的末端,是一个特殊值0xFF,即十进制的255。
在这个例子中,压缩列表总长度zlbytes为0x50,即80字节;zltail为0x3c,也就是说假如有一个指针指向压缩列表的起始位置,那么这个指针加上偏移量60,就可以计算出表尾节点的地址;zllen为0x4,表示包含4个节点。
每当有新的键值对加入到当前的哈希对象中时,程序会先将键构造成节点,推到压缩列表的表尾,然后把值构造成节点,推到压缩表的表尾,也就是说同一键值对的键节点和值节点是挨在一起的,键在前,值在后。
那么,压缩列表的节点构成是怎么样的呢?
为了行文方便,我们姑且称之为节点。我们首先要知道节点存储的是什么,然后才去讨论该怎么存。对于哈希类型来说,ziplist的节点包含哈希的键和哈希的值,不管是键还是值,最终在内存中都是两种类型:字节数组或者整数值。那节点如何区分存的是字节数组还是整数值呢?答案就在节点的结构上
节点的结构分为三个部分:
- prus_entry_length表示前一个节点的字节长度,这部分占用1个或者5个字节,如果前一个节点的字节长度小于254字节(一个字节能记录下),那就占用1个字节,如果长度大于254个字节,就占用5个字节,其中首个字节设置为0xFE,标志该部分占用五个字节记录长度,其余部分记录真实的长度。这部分的主要作用,其实是为了方便从表尾向表头遍历,假如有一个指向某个节点的指针,那么通过该属性就可以计算前一个节点的起始地址,最终回溯到表头;
- encoding记录的是content里保存的数据的编码和长度,这部分占用1个或者2个或者5个字节。上边说过,节点保存的是字节数组或者整数值,encoding通过最高两位(首个字节的前两位)来区分是字节数组还是整数值,如下表所示,“_”表示留空,b、x等字母位用来表示实际的二进制数据,为了方便阅读,多个字节用空格分隔
- content就比较简单了,就是保存的真正的值,至于它的类型和长度,encoding中已经记录了。
说到这,大家可能有疑问了,previous_entry_length记录了前一个节点的长度,而且自身长度是不固定的,那如果前一个节点的长度改变了,确切的说是从小于254变成大于254或者反之,那当前节点的pervious_entry_length就需要增加到5个字节或者缩小到1个字节记录长度,如果这个属性的改变,导致当前节点的长度也从小于254变成大于254或者反之,同样会导致其后继节点的改变,以此类推,就会发生连锁更新的问题,除了更新,删除也会导致连锁更新。确实,连锁更新的问题确实存在,而且复杂度比较高,但是,它真正能造成性能问题的概率非常低,原因有二:一、当压缩列表中有多个连续的、且长度介于250字节到253字节之间的节点,连锁更新才有可能引发,在实际情况中,这非常少见;二、即使发生连锁更新,但是只要是连锁更新的节点数量不多,也不会对性能造成影响,比如说三五个节点的连锁更新是绝对不会影响性能的。也就是说,发生连锁更新的条件非常苛刻,正常情况下,几乎不可能。
最后要说一下,ziplist的时间复杂度平均是O(n)。
(2)hashtable内部编码的实现
另外一种编码是hashtable,它是用Redis底层的字典结构实现的,其实又是一个哈希表。说到哈希表,就必然涉及到哈希算法、哈希冲突、rehash等共性问题。
Redis使用MurmurHash2算法来计算哈希值,这种算法的优点是,即使键是有规律的,算法仍然能给出一个很好的随机分布性,并且算法的速度也是非常快的。
至于哈希冲突,Redis采用的是链地址法解决冲突,每个节点都有一个next指针,通过指针链接哈希到同一个索引上的节点。
关于rehash,需要先介绍一下字典的结构
typedef struct dict {
dictType *type;
void *privdata;
// 哈希表
dictht ht[2];
// rehash索引
in trehashindex;
} dict;
在字典的定义中,哈希表定义了一个长度为2的哈希表数组,一般情况下,字典只是用ht[0]哈希表,ht[1]哈希表只会在对ht[0]进行rehash时使用。还有一点需要注意的是,rehash不是一次性完成的,而是分多次,渐进式的完成的,也叫作渐进式rehash。因为,当哈希表中键值对数量非常多的时候,一次性rehash所进行的庞大计算量可能导致服务在一段时间内停止对外服务,也就是阻塞,对性能有很大的影响,不符合Redis的设计初衷,所以通过渐进式rehash一点点慢慢的把ht[0]中的键值对rehash到ht[1]中。rehash的步骤:1、对ht[1]分配空间,如果是扩容,分配空间大小是第一个大于等于ht[0]中键值对数量*2的2的n次幂,如果是收缩,分配空间是第一个大于等于ht[0]键值对数量的2n;2、把ht[0]中的所有键值对重新rehash到ht[1]上,这个过程是渐进式的,如果在rehash的过程中,对字典进行添加、修改、删除等操作,会同步在两个哈希表上进行,直到ht[0]中的键值对全部迁移到ht[1]中;3、释放ht[0],将ht[1]设置为ht[0]。
那字典什么时候扩容,什么时候收缩呢?这和负载因子有关,负载因子的计算方式是哈希表已保存节点数量/哈希表大小。当服务器没有执行BGSAVE或者BGREWRITEAOF时,负载因子大于等于1就扩展;当服务器执行BGSAVE或者BGREWRITEAOF时,负载因子大于等于5就扩展;当负载因子小于0.1时,收缩。
常用命令
(1)设置值、获取值、删除值
(2)统计键数量
(3)批量设置、批量获取
(4)判断键是否存在
(5)获取所有键、所有值、所有键值
需要注意的是,如果键值个数比较多,使用hgeall时可能会有阻塞Redis的可能,可以使用hmget获取部分键或者使用hscan获取全部键。
(6)渐进式遍历
(7)键值自增
使用场景
就像常用命令里的示例一样,哈希最普遍的使用场景就是缓存类用户信息数据,相对于使用普通的字符串去保存这类信息,使用哈希有以下优点
- 内存占用少,使用字符串保存的时候,要为没一个field设置一个Redis键,而Redis键除了键本身外,还需要额外的结构保存其他信息,占用一定量的内存,需要注意的是,如果编码转换为hashtable后,可能占用内存反而会更多;
- 每一个field的可以单独添加、更新、删除,相对来说字符串必须整体操作;
- 数据直观,如果把信息序列化成一定格式后,用字符串保存也会直观,但是序列化反序列化有一定的开销;
相关推荐
- 一文读懂Prometheus架构监控(prometheus监控哪些指标)
-
介绍Prometheus是一个系统监控和警报工具包。它是用Go编写的,由Soundcloud构建,并于2016年作为继Kubernetes之后的第二个托管项目加入云原生计算基金会(C...
- Spring Boot 3.x 新特性详解:从基础到高级实战
-
1.SpringBoot3.x简介与核心特性1.1SpringBoot3.x新特性概览SpringBoot3.x是建立在SpringFramework6.0基础上的重大版...
- 「技术分享」猪八戒基于Quartz分布式调度平台实践
-
点击原文:【技术分享】猪八戒基于Quartz分布式调度平台实践点击关注“八戒技术团队”,阅读更多技术干货1.背景介绍1.1业务场景调度任务是我们日常开发中非常经典的一个场景,我们时常会需要用到一些不...
- 14. 常用框架与工具(使用的框架)
-
本章深入解析Go生态中的核心开发框架与工具链,结合性能调优与工程化实践,提供高效开发方案。14.1Web框架(Gin,Echo)14.1.1Gin高性能实践//中间件链优化router:=...
- SpringBoot整合MyBatis-Plus:从入门到精通
-
一、MyBatis-Plus基础介绍1.1MyBatis-Plus核心概念MyBatis-Plus(简称MP)是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,为简化开发、提...
- Seata源码—5.全局事务的创建与返回处理
-
大纲1.Seata开启分布式事务的流程总结2.Seata生成全局事务ID的雪花算法源码3.生成xid以及对全局事务会话进行持久化的源码4.全局事务会话数据持久化的实现源码5.SeataServer创...
- Java开发200+个学习知识路线-史上最全(框架篇)
-
1.Spring框架深入SpringIOC容器:BeanFactory与ApplicationContextBean生命周期:实例化、属性填充、初始化、销毁依赖注入方式:构造器注入、Setter注...
- OpenResty 入门指南:从基础到动态路由实战
-
一、引言1.1OpenResty简介OpenResty是一款基于Nginx的高性能Web平台,通过集成Lua脚本和丰富的模块,将Nginx从静态反向代理转变为可动态编程的应用平台...
- 你还在为 Spring Boot3 分布式锁实现发愁?一文教你轻松搞定!
-
作为互联网大厂后端开发人员,在项目开发过程中,你有没有遇到过这样的问题:多个服务实例同时访问共享资源,导致数据不一致、业务逻辑混乱?没错,这就是分布式环境下常见的并发问题,而分布式锁就是解决这类问题的...
- 近2万字详解JAVA NIO2文件操作,过瘾
-
原创:小姐姐味道(微信公众号ID:xjjdog),欢迎分享,转载请保留出处。从classpath中读取过文件的人,都知道需要写一些读取流的方法,很是繁琐。最近使用IDEA在打出.这个符号的时候,一行代...
- 学习MVC之租房网站(十二)-缓存和静态页面
-
在上一篇<学习MVC之租房网站(十一)-定时任务和云存储>学习了Quartz的使用、发邮件,并将通过UEditor上传的图片保存到云存储。在项目的最后,再学习优化网站性能的一些技术:缓存和...
- Linux系统下运行c++程序(linux怎么运行c++文件)
-
引言为什么要在Linux下写程序?需要更多关于Linux下c++开发的资料请后台私信【架构】获取分享资料包括:C/C++,Linux,Nginx,ZeroMQ,MySQL,Redis,fastdf...
- 2022正确的java学习顺序(文末送java福利)
-
对于刚学习java的人来说,可能最大的问题是不知道学习方向,每天学了什么第二天就忘了,而课堂的讲解也是很片面的。今天我结合我的学习路线为大家讲解下最基础的学习路线,真心希望能帮到迷茫的小伙伴。(有很多...
- 一个 3 年 Java 程序员 5 家大厂的面试总结(已拿Offer)
-
前言15年毕业到现在也近三年了,最近面试了阿里集团(菜鸟网络,蚂蚁金服),网易,滴滴,点我达,最终收到点我达,网易offer,蚂蚁金服二面挂掉,菜鸟网络一个月了还在流程中...最终有幸去了网易。但是要...
- 多商户商城系统开发全流程解析(多商户商城源码免费下载)
-
在数字化商业浪潮中,多商户商城系统成为众多企业拓展电商业务的关键选择。这类系统允许众多商家在同一平台销售商品,不仅丰富了商品种类,还为消费者带来更多样的购物体验。不过,开发一个多商户商城系统是个复杂的...
你 发表评论:
欢迎- 一周热门
-
-
Redis客户端 Jedis 与 Lettuce
-
高并发架构系列:Redis并发竞争key的解决方案详解
-
redis如何防止并发(redis如何防止高并发)
-
开源推荐:如何实现的一个高性能 Redis 服务器
-
redis安装与调优部署文档(WinServer)
-
Redis 入门 - 安装最全讲解(Windows、Linux、Docker)
-
一文带你了解 Redis 的发布与订阅的底层原理
-
Redis如何应对并发访问(redis控制并发量)
-
oracle数据库查询Sql语句是否使用索引及常见的索引失效的情况
-
Java SE Development Kit 8u441下载地址【windows版本】
-
- 最近发表
- 标签列表
-
- oracle位图索引 (63)
- oracle批量插入数据 (62)
- oracle事务隔离级别 (53)
- oracle 空为0 (50)
- oracle主从同步 (55)
- oracle 乐观锁 (51)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)