百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

Redis基本数据结构之哈希(redis 哈希算法)

mhr18 2024-11-14 16:25 23 浏览 0 评论

纸上得来终觉浅,绝知此事要躬行!

哈希,对于大家来说应该是比较熟悉的一种数据结构了,因为大多数的编程语言都实现了哈希结构,可能叫法不一样而已,比如字典。而且哈希的应用场景也是非常的多,就拿Redis来说,其实它本身就是一个大的哈希结构的数据库。

这里我们说的哈希结构,指的是Redis键值对中值的类型是哈希类型,也就是说值本身也是一个键值对结构。

我们按三部分来介绍:

  1. 内部编码
  2. 常用命令
  3. 典型应用场景

内部编码

哈希类型的内部编码有两种:压缩列表ziplist和哈希表hashtable。

有两个参数控制何时使用ziplist,何时使用hashtable,这两个参数在配置文件中,可以自由配置:

# Hashes are encoded using a memory efficient data structure when they have a
# small number of entries, and the biggest entry does not exceed a given
# threshold. These thresholds can be configured using the following directives.
hash-max-ziplist-entries 512
hash-max-ziplist-value 64

注释的意思:当哈希有少量的条目,并且最大的条目不超过给定的阈值时,使用内存高效的数据结构对其进行编码。可以使用以下指令配置这些阈值。需要注意的是,这两个参数的条件是并且的关系,也就是说,当不满足其中之一的时候,内部编码就自动变成hashtable了。那这两个参数是什么意思呢?从名字来看,其实大概可以猜出来:hash-max-ziplist-entries表示哈希中元素个数,默认是512个;hash-max-ziplist-value表示哈希中每个元素的值的大小,默认是64字节。当哈希类型中元素个数和大小满足参数配置时,Redis默认使用ziplist来存储哈希类型。

那么,ziplist和hashtable有什么区别呢?从配置看,当数据膨胀之后,才会使用hashtable作为内部编码,那么ziplist在小数据量时应该是比hashtable更有优势。

(1)压缩列表ziplist

压缩列表ziplist是Redis为了节约内存而开发的,是由一系列特殊编码的连续内存块组成的顺序型数据结构,它的结构如下

其中:zlbytes表示整个压缩列表占用的内存字节数,在内存重分配或者计算zlend的时候使用,是一个4字节的整型;zltail表示压缩列表表尾节点距离压缩列表的起始地址有多少个字节,通过这个偏移量,可以直接计算出表尾的地址,无需遍历压缩列表,也是一个4字节的整型;zllen表示压缩列表的节点数量,值得注意的是,这是一个2字节的整型,所以能表示的最大数量是65535,当zlen值是65535时,说明压缩列表的节点数量可能超过了能表示的最大数量,这时,需要遍历压缩列表才能得到真实的节点数量;field1、value1..等等表示的是压缩列表中的一个个节点,其中field表示哈希键,value表示哈希值;zlend是用来标记压缩列表的末端,是一个特殊值0xFF,即十进制的255。

在这个例子中,压缩列表总长度zlbytes为0x50,即80字节;zltail为0x3c,也就是说假如有一个指针指向压缩列表的起始位置,那么这个指针加上偏移量60,就可以计算出表尾节点的地址;zllen为0x4,表示包含4个节点。

每当有新的键值对加入到当前的哈希对象中时,程序会先将键构造成节点,推到压缩列表的表尾,然后把值构造成节点,推到压缩表的表尾,也就是说同一键值对的键节点和值节点是挨在一起的,键在前,值在后。

那么,压缩列表的节点构成是怎么样的呢?

为了行文方便,我们姑且称之为节点。我们首先要知道节点存储的是什么,然后才去讨论该怎么存。对于哈希类型来说,ziplist的节点包含哈希的键和哈希的值,不管是键还是值,最终在内存中都是两种类型:字节数组或者整数值。那节点如何区分存的是字节数组还是整数值呢?答案就在节点的结构上

节点的结构分为三个部分:

  • prus_entry_length表示前一个节点的字节长度,这部分占用1个或者5个字节,如果前一个节点的字节长度小于254字节(一个字节能记录下),那就占用1个字节,如果长度大于254个字节,就占用5个字节,其中首个字节设置为0xFE,标志该部分占用五个字节记录长度,其余部分记录真实的长度。这部分的主要作用,其实是为了方便从表尾向表头遍历,假如有一个指向某个节点的指针,那么通过该属性就可以计算前一个节点的起始地址,最终回溯到表头;
  • encoding记录的是content里保存的数据的编码和长度,这部分占用1个或者2个或者5个字节。上边说过,节点保存的是字节数组或者整数值,encoding通过最高两位(首个字节的前两位)来区分是字节数组还是整数值,如下表所示,“_”表示留空,b、x等字母位用来表示实际的二进制数据,为了方便阅读,多个字节用空格分隔
  • content就比较简单了,就是保存的真正的值,至于它的类型和长度,encoding中已经记录了。

说到这,大家可能有疑问了,previous_entry_length记录了前一个节点的长度,而且自身长度是不固定的,那如果前一个节点的长度改变了,确切的说是从小于254变成大于254或者反之,那当前节点的pervious_entry_length就需要增加到5个字节或者缩小到1个字节记录长度,如果这个属性的改变,导致当前节点的长度也从小于254变成大于254或者反之,同样会导致其后继节点的改变,以此类推,就会发生连锁更新的问题,除了更新,删除也会导致连锁更新。确实,连锁更新的问题确实存在,而且复杂度比较高,但是,它真正能造成性能问题的概率非常低,原因有二:一、当压缩列表中有多个连续的、且长度介于250字节到253字节之间的节点,连锁更新才有可能引发,在实际情况中,这非常少见;二、即使发生连锁更新,但是只要是连锁更新的节点数量不多,也不会对性能造成影响,比如说三五个节点的连锁更新是绝对不会影响性能的。也就是说,发生连锁更新的条件非常苛刻,正常情况下,几乎不可能。

最后要说一下,ziplist的时间复杂度平均是O(n)。

(2)hashtable内部编码的实现

另外一种编码是hashtable,它是用Redis底层的字典结构实现的,其实又是一个哈希表。说到哈希表,就必然涉及到哈希算法、哈希冲突、rehash等共性问题。

Redis使用MurmurHash2算法来计算哈希值,这种算法的优点是,即使键是有规律的,算法仍然能给出一个很好的随机分布性,并且算法的速度也是非常快的。

至于哈希冲突,Redis采用的是链地址法解决冲突,每个节点都有一个next指针,通过指针链接哈希到同一个索引上的节点。

关于rehash,需要先介绍一下字典的结构

typedef struct dict {
	dictType *type;
  void *privdata;
  // 哈希表
  dictht ht[2];
  // rehash索引
  in trehashindex;
} dict;

在字典的定义中,哈希表定义了一个长度为2的哈希表数组,一般情况下,字典只是用ht[0]哈希表,ht[1]哈希表只会在对ht[0]进行rehash时使用。还有一点需要注意的是,rehash不是一次性完成的,而是分多次,渐进式的完成的,也叫作渐进式rehash。因为,当哈希表中键值对数量非常多的时候,一次性rehash所进行的庞大计算量可能导致服务在一段时间内停止对外服务,也就是阻塞,对性能有很大的影响,不符合Redis的设计初衷,所以通过渐进式rehash一点点慢慢的把ht[0]中的键值对rehash到ht[1]中。rehash的步骤:1、对ht[1]分配空间,如果是扩容,分配空间大小是第一个大于等于ht[0]中键值对数量*2的2的n次幂,如果是收缩,分配空间是第一个大于等于ht[0]键值对数量的2n;2、把ht[0]中的所有键值对重新rehash到ht[1]上,这个过程是渐进式的,如果在rehash的过程中,对字典进行添加、修改、删除等操作,会同步在两个哈希表上进行,直到ht[0]中的键值对全部迁移到ht[1]中;3、释放ht[0],将ht[1]设置为ht[0]。

那字典什么时候扩容,什么时候收缩呢?这和负载因子有关,负载因子的计算方式是哈希表已保存节点数量/哈希表大小。当服务器没有执行BGSAVE或者BGREWRITEAOF时,负载因子大于等于1就扩展;当服务器执行BGSAVE或者BGREWRITEAOF时,负载因子大于等于5就扩展;当负载因子小于0.1时,收缩。

常用命令

(1)设置值、获取值、删除值

(2)统计键数量

(3)批量设置、批量获取

(4)判断键是否存在

(5)获取所有键、所有值、所有键值

需要注意的是,如果键值个数比较多,使用hgeall时可能会有阻塞Redis的可能,可以使用hmget获取部分键或者使用hscan获取全部键。

(6)渐进式遍历

(7)键值自增

使用场景

就像常用命令里的示例一样,哈希最普遍的使用场景就是缓存类用户信息数据,相对于使用普通的字符串去保存这类信息,使用哈希有以下优点

  1. 内存占用少,使用字符串保存的时候,要为没一个field设置一个Redis键,而Redis键除了键本身外,还需要额外的结构保存其他信息,占用一定量的内存,需要注意的是,如果编码转换为hashtable后,可能占用内存反而会更多;
  2. 每一个field的可以单独添加、更新、删除,相对来说字符串必须整体操作;
  3. 数据直观,如果把信息序列化成一定格式后,用字符串保存也会直观,但是序列化反序列化有一定的开销;

相关推荐

一文读懂Prometheus架构监控(prometheus监控哪些指标)

介绍Prometheus是一个系统监控和警报工具包。它是用Go编写的,由Soundcloud构建,并于2016年作为继Kubernetes之后的第二个托管项目加入云原生计算基金会(C...

Spring Boot 3.x 新特性详解:从基础到高级实战

1.SpringBoot3.x简介与核心特性1.1SpringBoot3.x新特性概览SpringBoot3.x是建立在SpringFramework6.0基础上的重大版...

「技术分享」猪八戒基于Quartz分布式调度平台实践

点击原文:【技术分享】猪八戒基于Quartz分布式调度平台实践点击关注“八戒技术团队”,阅读更多技术干货1.背景介绍1.1业务场景调度任务是我们日常开发中非常经典的一个场景,我们时常会需要用到一些不...

14. 常用框架与工具(使用的框架)

本章深入解析Go生态中的核心开发框架与工具链,结合性能调优与工程化实践,提供高效开发方案。14.1Web框架(Gin,Echo)14.1.1Gin高性能实践//中间件链优化router:=...

SpringBoot整合MyBatis-Plus:从入门到精通

一、MyBatis-Plus基础介绍1.1MyBatis-Plus核心概念MyBatis-Plus(简称MP)是一个MyBatis的增强工具,在MyBatis的基础上只做增强不做改变,为简化开发、提...

Seata源码—5.全局事务的创建与返回处理

大纲1.Seata开启分布式事务的流程总结2.Seata生成全局事务ID的雪花算法源码3.生成xid以及对全局事务会话进行持久化的源码4.全局事务会话数据持久化的实现源码5.SeataServer创...

Java开发200+个学习知识路线-史上最全(框架篇)

1.Spring框架深入SpringIOC容器:BeanFactory与ApplicationContextBean生命周期:实例化、属性填充、初始化、销毁依赖注入方式:构造器注入、Setter注...

OpenResty 入门指南:从基础到动态路由实战

一、引言1.1OpenResty简介OpenResty是一款基于Nginx的高性能Web平台,通过集成Lua脚本和丰富的模块,将Nginx从静态反向代理转变为可动态编程的应用平台...

你还在为 Spring Boot3 分布式锁实现发愁?一文教你轻松搞定!

作为互联网大厂后端开发人员,在项目开发过程中,你有没有遇到过这样的问题:多个服务实例同时访问共享资源,导致数据不一致、业务逻辑混乱?没错,这就是分布式环境下常见的并发问题,而分布式锁就是解决这类问题的...

近2万字详解JAVA NIO2文件操作,过瘾

原创:小姐姐味道(微信公众号ID:xjjdog),欢迎分享,转载请保留出处。从classpath中读取过文件的人,都知道需要写一些读取流的方法,很是繁琐。最近使用IDEA在打出.这个符号的时候,一行代...

学习MVC之租房网站(十二)-缓存和静态页面

在上一篇<学习MVC之租房网站(十一)-定时任务和云存储>学习了Quartz的使用、发邮件,并将通过UEditor上传的图片保存到云存储。在项目的最后,再学习优化网站性能的一些技术:缓存和...

Linux系统下运行c++程序(linux怎么运行c++文件)

引言为什么要在Linux下写程序?需要更多关于Linux下c++开发的资料请后台私信【架构】获取分享资料包括:C/C++,Linux,Nginx,ZeroMQ,MySQL,Redis,fastdf...

2022正确的java学习顺序(文末送java福利)

对于刚学习java的人来说,可能最大的问题是不知道学习方向,每天学了什么第二天就忘了,而课堂的讲解也是很片面的。今天我结合我的学习路线为大家讲解下最基础的学习路线,真心希望能帮到迷茫的小伙伴。(有很多...

一个 3 年 Java 程序员 5 家大厂的面试总结(已拿Offer)

前言15年毕业到现在也近三年了,最近面试了阿里集团(菜鸟网络,蚂蚁金服),网易,滴滴,点我达,最终收到点我达,网易offer,蚂蚁金服二面挂掉,菜鸟网络一个月了还在流程中...最终有幸去了网易。但是要...

多商户商城系统开发全流程解析(多商户商城源码免费下载)

在数字化商业浪潮中,多商户商城系统成为众多企业拓展电商业务的关键选择。这类系统允许众多商家在同一平台销售商品,不仅丰富了商品种类,还为消费者带来更多样的购物体验。不过,开发一个多商户商城系统是个复杂的...

取消回复欢迎 发表评论: