多年开发经验大牛教授程序员如何采用Redis实现流信息状态管理!
mhr18 2024-11-13 11:09 16 浏览 0 评论
采用Redis实现流信息状态管理
Redis是一个开源的内存数据库,支持非常丰富的数据结构,如字符串(string)、哈希表(hash)、列表(list)、集合(set)、有序集合(sorte.set)、位图(bitmap)、HyperLogLog算法、地理空间索引(geospatial index)等。丰富的数据结构支持、官方支持的Redis Cluster集群方案、原生的LRU淘汰策略,这些因素共同决定了Redis非常适用于实时流计算应用中的状态存储。下面我们就来看看Redis具体如何用于实时流计算中的流信息状态管理。
时间维度聚合特征计算
前面描述了时间维度聚合特征计算的原理,下面以“过去一周内在同一个设备上交易次数”这个计数查询为例,进行具体的讲解。
这种计数查询非常适合用Redis字符串指令中的INCR指令实现。
INCR指令对存储在指定键的数值执行原子加1操作,然后返回加1后的结果。
这里我们将7天的时间窗口划分为7个小窗口,每个小窗口代表1天。为每个小窗口分配一个key,用来记录这个窗口的事件数。key的格式如下:
$event_type.$device_id.$window_unit.$window_index
其中,“$event_type”表示事件类型,“$device_id”表示设备ID,“$window_unit”表示时间窗口单元,“$window_index”表示时间窗口索引。
例如,对于“device_id”为“d000001”的设备,如果在时间戳为1532496076032的时刻更新窗口,则计算如下:
$event_type = transaction
$device_id = d000001
$window_unit = 86400000 # 时间窗口单元为1天,即86 400 000毫秒
$window_index = 1532496076032 / $window_unit = 17737 # 用时间戳除以时间窗口单元,得到时间窗口索引
$key = $event_type.$device_id.$window_unit.$window_index
redis.incr($key)
上面的伪代码描述了使用Redis的INCR指令更新某个窗口的计数值。我们的设计是将更新操作和查询操作分开进行的。因此,这里只需更新一个小窗口的计数值,而不需要更新整个窗口中所有小窗口的计数值。
当查询7天窗口内的总计数值时,我们对7个子时间窗口内的计数做查询并汇总。计算如下:
$event_type = transaction
$device_id = d000001
$window_unit = 86400000 # 时间窗口单元为1天,即86 400 000毫秒
$window_index = 1532496076032 / $window_unit = 17737
# 用时间戳除以时间窗口单元,得到当前时间窗口索引
sum = 0
for $i in range(0, 7):
$window_index = $window_index - $i
$key = $event_type.$device_id.$window_unit.$window_index
sum += redis.get($key)
return sum
上面的伪代码使用Redis的GET指令查询了过去7个子时间窗口,也就是过去7天每天的计数值,然后将这些计数值汇总,就得到了“过去一周内在同一个设备上交易次数”这个特征值。
一度关联特征计算
前面,我们描述了关联图谱中一度关联特征计算的原理,并且为了优化存储空间和计算性能,我们使用HyperLogLog算法对原有算法做了改进。下面我们以“过去30天在同一设备上登录过的不同用户数”这个一度关联特征为例,具体讲解一度关联特征的HyperLogLog算法的实现。
类似5.2.1节中的计数计算,我们将30天的时间窗口划分为30个小窗口,每个小窗口代表1天。为每个小窗口分配一个key,用来记录这个窗口内同一设备上的不同用户数。同样,key的格式如下:
$event_type.$device_id.$window_unit.$window_index
其中,“$event_type”表示事件类型,“$device_id”表示设备ID,“$window_unit”表示时间窗口单元,“$window_index”表示时间窗口索引。
例如,对于“device_id”为“d000001”、“userid”为“u000001”的用户,交易时间为“1532496076032”,则更新窗口内设备上不同用户的算法如下:
$event_type = login
$device_id = d000001
$window_unit = 86400000 # 时间窗口单元为1天,即86 400 000毫秒
# 用时间戳除以时间窗口单元,得到时间窗口索引
$window_index = 1532496076032 / $window_unit = 17737
$key = $event_type.$device_id.$window_unit.$window_index
$userid = u000001
redis.pfadd($key, $userid)
上面的伪代码描述了使用Redis的PFADD指令,将新到的用户“u000001”添加到以“login.d000001.86400000.17737”为key的HyperLogLog寄存器中。通过这个寄存器的取值,我们可以估算出时间窗口内同一设备上的不同用户数。
由于更新计算是对子时间窗口上的Hyperloglog寄存器进行更新,因此在查询时需要对各个子时间窗口上的Hyperloglog寄存器做汇总。
计算如下:
$event_type = login
$device_id = d000001
$window_unit = 86400000 # 时间窗口单元为1天,即86400000毫秒
$window_index = 1532496076032 / $window_unit = 17737 # 用时间戳除以时间窗口单元,得到时间窗口索引
$keys = [] # 创建一个用于记录不同用户的列表
for $i in range(0, 30):
$window_index = $window_index - $i
$key = $event_type.$device_id.$window_unit.$window_index
$keys += $key # 将返回的用户添加到集合里面
$count_key = random_uuid() # 生成一个uuid用于临时存储Hyperloglog寄存器合并结果
redis.pfmerge($count_key, $keys)
$count = redis.pfcount($count_key)
redis.del($count_key) # 删除临时寄存器
return $count
上面的伪代码使用Redis的PFMERGE指令,将过去30个子窗口的设备不同用户数Hyperloglog寄存器值合并起来,结果保存在临时寄存器$count_key内,然后用PFCOUNT指令根据临时寄存器的值,估计出整个窗口上不同值的个数,也就是“过去30天在同一设备上登录过的不同用户数”了。完成估计后,需要删除临时寄存器,以防止内存泄漏。
本篇文章给大家讲解的内容是实时流计算的状态管理:采用Redis实现流信息状态管理
下篇文章给大家讲解的内容是实时流计算的状态管理:采用Apache Ignite实现流信息状态管理
相关推荐
- Team IDE 集成管理工具
-
Team·IDE工具简介TeamIDE工具集成SSH、FTP、MySql、Redis、Zookeeper、Kafka、Elasticsearch等管理工具Team·IDE功能模块目录结...
- MySQL大数据表处理策略,原来一直都用错了……
-
场景当我们业务数据库表中的数据越来越多,如果你也和我遇到了以下类似场景,那让我们一起来解决这个问题。数据的插入,查询时长较长后续业务需求的扩展,在表中新增字段,影响较大表中的数据并不是所有的都为有效数...
- Java程序员你真的甘心只做增删改查吗
-
各位志同道合的朋友们大家好,我是一个一直在一线互联网踩坑十余年的编码爱好者,现在将我们的各种经验以及架构实战分享出来,如果大家喜欢,就关注我,一起将技术学深学透,我会每一篇分享结束都会预告下一专题最近...
- Java后端开发除了增删改查还有什么?
-
后端的追求:接口稳定、架构合理、业务逻辑清晰、模块拆分合理、支持高并发等。软件本身归根到底都是由算法+数据结构构成的,进一步细化之后,其实就是通过一系列的增删改查操作,构成算法,对数据结构进行操作,赋...
- 基于shiro实现session持久化和分布式共享
-
前言本文写下session持久化和分布式共享基于shiro框架对session的管理机制来实现必要性一直处于登陆状态:你登陆微信不可能三天两头就让你重新登陆吧?而是一直处于登陆状态除非主动退出...
- 为啥工作那么多年,你还是只会增删改查?
-
你以为没有这样的感觉,工作中领导和同事都非常认可你的能力,但是你想更进一步,却不被认可。想出去看看,跳槽面试,却也是屡屡碰壁。面试的过程中,面试官问技术方案,明明心里很清楚,或者说印象还行,可就是说不...
- Java程序员除了做增删改查还能干嘛?
-
就以Java后端开发为例,说说不同级别程序员干的事情。1初级开发,大概是有3年Java开发经验。22年底,上海,这批程序员如果学历是本科,薪资一般是8k到2w,当然如果能进好公司或互联网大厂,薪资能...
- Java面试题及答案总结(2025版持续更新)
-
大家好,我是Java面试分享面对Java后端岗位的激烈竞争,掌握系统化的知识体系至关重要。本文整理了覆盖主流技术栈的高频面试题,助你高效备战,内容包含:Java基础、并发编程、Spring生态、数据库...
- 微服务架构之API网关——在微服务项目中的技术框架和用法实践
-
API网关技术实战在介绍了API网关的相关理论之后,大家可以了解到API网关的作用和优缺点,接下来将为大家介绍API网关在微服务项目中的技术框架和用法实践。Zuul网关其实API网关并不是很难的技术,...
- 带小白黑客入门,你也可以跟我们一起成为黑客大牛
-
小编这几天一直在做关于ssrf的实验,这篇文章可以带纯小白黑客入门。靶机ip地址:192.168.2.138查看靶机运行的redis服务。攻击机为ip192.168.2.112.用客户端redis-c...
- Python最常见的170道面试题全解析答案(二)
-
60.请写一个Python逻辑,计算一个文件中的大写字母数量答:withopen(‘A.txt’)asfs:count=0foriinfs.read():ifi.isupper...
- Spring Boot项目集成Redis,原来这么简单!
-
在现代软件开发的“快车道”上,SpringBoot无疑是许多开发者手中的“神兵利器”。它以其“约定大于配置”的理念,大大简化了Java应用的开发和部署过程,让开发者能够将更多精力聚焦于业务逻辑本身。...
- Apache Commons Pool——优化你的java内存
-
大家好,我是吉森。我会持续分享一些开发技巧、经验和技术,如果你也热爱各种开发技术,欢迎关注我。今天我们继续介绍ApacheCommons工具包,今天的主角是:CommonsPool。简单地说,它是...
- 码农成长系列-基于WebSocket的后台消息提醒
-
场景描述当用户对app有某些业务操作时,需要将该操作友好地提醒给,有接收提醒权限的后台管理者。技术场景分析经分析,要实现上述业务,业务拆解后可能需要解决如下业务①.触发提醒待推送数据的监听②.提醒时接...
- 百度直播消息系统的实践和演进
-
导读:直播业务的核心功能有两个,一个是实时音视频推拉流,另一个是直播间消息流的收发。本文主要介绍百度直播服务内的消息服务系统的设计实践和演化。一、背景直播间内用户聊天互动,形式上是常见的IM消息流;...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracle位图索引 (63)
- oracle批量插入数据 (62)
- oracle事务隔离级别 (53)
- oracle 空为0 (50)
- oracle主从同步 (55)
- oracle 乐观锁 (51)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)