百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

多年开发经验大牛教授程序员如何采用Redis实现流信息状态管理!

mhr18 2024-11-13 11:09 21 浏览 0 评论

采用Redis实现流信息状态管理

Redis是一个开源的内存数据库,支持非常丰富的数据结构,如字符串(string)、哈希表(hash)、列表(list)、集合(set)、有序集合(sorte.set)、位图(bitmap)、HyperLogLog算法、地理空间索引(geospatial index)等。丰富的数据结构支持、官方支持的Redis Cluster集群方案、原生的LRU淘汰策略,这些因素共同决定了Redis非常适用于实时流计算应用中的状态存储。下面我们就来看看Redis具体如何用于实时流计算中的流信息状态管理。

时间维度聚合特征计算

前面描述了时间维度聚合特征计算的原理,下面以“过去一周内在同一个设备上交易次数”这个计数查询为例,进行具体的讲解。

这种计数查询非常适合用Redis字符串指令中的INCR指令实现。

INCR指令对存储在指定键的数值执行原子加1操作,然后返回加1后的结果。

这里我们将7天的时间窗口划分为7个小窗口,每个小窗口代表1天。为每个小窗口分配一个key,用来记录这个窗口的事件数。key的格式如下:

$event_type.$device_id.$window_unit.$window_index

其中,“$event_type”表示事件类型,“$device_id”表示设备ID,“$window_unit”表示时间窗口单元,“$window_index”表示时间窗口索引。

例如,对于“device_id”为“d000001”的设备,如果在时间戳为1532496076032的时刻更新窗口,则计算如下:

$event_type = transaction

$device_id = d000001

$window_unit = 86400000 # 时间窗口单元为1天,即86 400 000毫秒

$window_index = 1532496076032 / $window_unit = 17737 # 用时间戳除以时间窗口单元,得到时间窗口索引

$key = $event_type.$device_id.$window_unit.$window_index

redis.incr($key)

上面的伪代码描述了使用Redis的INCR指令更新某个窗口的计数值。我们的设计是将更新操作和查询操作分开进行的。因此,这里只需更新一个小窗口的计数值,而不需要更新整个窗口中所有小窗口的计数值。

当查询7天窗口内的总计数值时,我们对7个子时间窗口内的计数做查询并汇总。计算如下:

$event_type = transaction

$device_id = d000001

$window_unit = 86400000 # 时间窗口单元为1天,即86 400 000毫秒

$window_index = 1532496076032 / $window_unit = 17737

# 用时间戳除以时间窗口单元,得到当前时间窗口索引

sum = 0

for $i in range(0, 7):

$window_index = $window_index - $i

$key = $event_type.$device_id.$window_unit.$window_index

sum += redis.get($key)

return sum

上面的伪代码使用Redis的GET指令查询了过去7个子时间窗口,也就是过去7天每天的计数值,然后将这些计数值汇总,就得到了“过去一周内在同一个设备上交易次数”这个特征值。

一度关联特征计算

前面,我们描述了关联图谱中一度关联特征计算的原理,并且为了优化存储空间和计算性能,我们使用HyperLogLog算法对原有算法做了改进。下面我们以“过去30天在同一设备上登录过的不同用户数”这个一度关联特征为例,具体讲解一度关联特征的HyperLogLog算法的实现。

类似5.2.1节中的计数计算,我们将30天的时间窗口划分为30个小窗口,每个小窗口代表1天。为每个小窗口分配一个key,用来记录这个窗口内同一设备上的不同用户数。同样,key的格式如下:

$event_type.$device_id.$window_unit.$window_index

其中,“$event_type”表示事件类型,“$device_id”表示设备ID,“$window_unit”表示时间窗口单元,“$window_index”表示时间窗口索引。

例如,对于“device_id”为“d000001”、“userid”为“u000001”的用户,交易时间为“1532496076032”,则更新窗口内设备上不同用户的算法如下:

$event_type = login

$device_id = d000001

$window_unit = 86400000 # 时间窗口单元为1天,即86 400 000毫秒

# 用时间戳除以时间窗口单元,得到时间窗口索引

$window_index = 1532496076032 / $window_unit = 17737

$key = $event_type.$device_id.$window_unit.$window_index

$userid = u000001

redis.pfadd($key, $userid)

上面的伪代码描述了使用Redis的PFADD指令,将新到的用户“u000001”添加到以“login.d000001.86400000.17737”为key的HyperLogLog寄存器中。通过这个寄存器的取值,我们可以估算出时间窗口内同一设备上的不同用户数。

由于更新计算是对子时间窗口上的Hyperloglog寄存器进行更新,因此在查询时需要对各个子时间窗口上的Hyperloglog寄存器做汇总。

计算如下:

$event_type = login

$device_id = d000001

$window_unit = 86400000 # 时间窗口单元为1天,即86400000毫秒

$window_index = 1532496076032 / $window_unit = 17737 # 用时间戳除以时间窗口单元,得到时间窗口索引

$keys = [] # 创建一个用于记录不同用户的列表

for $i in range(0, 30):

$window_index = $window_index - $i

$key = $event_type.$device_id.$window_unit.$window_index

$keys += $key # 将返回的用户添加到集合里面

$count_key = random_uuid() # 生成一个uuid用于临时存储Hyperloglog寄存器合并结果

redis.pfmerge($count_key, $keys)

$count = redis.pfcount($count_key)

redis.del($count_key) # 删除临时寄存器

return $count

上面的伪代码使用Redis的PFMERGE指令,将过去30个子窗口的设备不同用户数Hyperloglog寄存器值合并起来,结果保存在临时寄存器$count_key内,然后用PFCOUNT指令根据临时寄存器的值,估计出整个窗口上不同值的个数,也就是“过去30天在同一设备上登录过的不同用户数”了。完成估计后,需要删除临时寄存器,以防止内存泄漏。

本篇文章给大家讲解的内容是实时流计算的状态管理:采用Redis实现流信息状态管理

下篇文章给大家讲解的内容是实时流计算的状态管理:采用Apache Ignite实现流信息状态管理

相关推荐

Dubai's AI Boom Lures Global Tech as Emirate Reinvents Itself as Middle East's Silicon Gateway

AI-generatedimageAsianFin--Dubaiisrapidlytransformingitselffromadesertoilhubintoaglob...

OpenAI Releases o3-pro, Cuts o3 Prices by 80% as Deal with Google Cloud Reported to Make for Compute Needs

TMTPOST--OpenAIisescalatingthepricewarinlargelanguagemodel(LLM)whileseekingpartnershi...

黄仁勋说AI Agent才是未来!但究竟有些啥影响?

,抓住风口(iOS用户请用电脑端打开小程序)本期要点:详解2025年大热点你好,我是王煜全,这里是王煜全要闻评论。最近,有个词被各个科技大佬反复提及——AIAgent,智能体。黄仁勋在CES展的发布...

商城微服务项目组件搭建(五)——Kafka、Tomcat等安装部署

1、本文属于mini商城系列文档的第0章,由于篇幅原因,这篇文章拆成了6部分,本文属于第5部分2、mini商城项目详细文档及代码见CSDN:https://blog.csdn.net/Eclipse_...

Python+Appium环境搭建与自动化教程

以下是保姆级教程,手把手教你搭建Python+Appium环境并实现简单的APP自动化测试:一、环境搭建(Windows系统)1.安装Python访问Python官网下载最新版(建议...

零配置入门:用VSCode写Java代码的正确姿

一、环境准备:安装JDK,让电脑“听懂”Java目标:安装Java开发工具包(JDK),配置环境变量下载JDKJava程序需要JDK(JavaDevelopmentKit)才能运行和编译。以下是两...

Mycat的搭建以及配置与启动(mycat2)

1、首先开启服务器相关端口firewall-cmd--permanent--add-port=9066/tcpfirewall-cmd--permanent--add-port=80...

kubernetes 部署mysql应用(k8s mysql部署)

这边仅用于测试环境,一般生产环境mysql不建议使用容器部署。这里假设安装mysql版本为mysql8.0.33一、创建MySQL配置(ConfigMap)#mysql-config.yaml...

Spring Data Jpa 介绍和详细入门案例搭建

1.SpringDataJPA的概念在介绍SpringDataJPA的时候,我们首先认识下Hibernate。Hibernate是数据访问解决技术的绝对霸主,使用O/R映射(Object-Re...

量子点格棋上线!“天衍”邀您执子入局

你是否能在策略上战胜量子智能?这不仅是一场博弈更是一次量子智力的较量——量子点格棋正式上线!试试你能否赢下这场量子智局!游戏玩法详解一笔一画间的策略博弈游戏目标:封闭格子、争夺领地点格棋的基本目标是利...

美国将与阿联酋合作建立海外最大的人工智能数据中心

当地时间5月15日,美国白宫宣布与阿联酋合作建立人工智能数据中心园区,据称这是美国以外最大的人工智能园区。阿布扎比政府支持的阿联酋公司G42及多家美国公司将在阿布扎比合作建造容量为5GW的数据中心,占...

盘后股价大涨近8%!甲骨文的业绩及指引超预期?

近期,美股的AI概念股迎来了一波上升行情,微软(MSFT.US)频创新高,英伟达(NVDA.US)、台积电(TSM.US)、博通(AVGO.US)、甲骨文(ORCL.US)等多股亦出现显著上涨。而从基...

甲骨文预计新财年云基础设施营收将涨超70%,盘后一度涨8% | 财报见闻

甲骨文(Oracle)周三盘后公布财报显示,该公司第四财季业绩超预期,虽然云基建略微逊于预期,但管理层预计2026财年云基础设施营收预计将增长超过70%,同时资本支出继上年猛增三倍后,新财年将继续增至...

Springboot数据访问(整合MongoDB)

SpringBoot整合MongoDB基本概念MongoDB与我们之前熟知的关系型数据库(MySQL、Oracle)不同,MongoDB是一个文档数据库,它具有所需的可伸缩性和灵活性,以及所需的查询和...

Linux环境下,Jmeter压力测试的搭建及报错解决方法

概述  Jmeter最早是为了测试Tomcat的前身JServ的执行效率而诞生的。到目前为止,它的最新版本是5.3,其测试能力也不再仅仅只局限于对于Web服务器的测试,而是涵盖了数据库、JM...

取消回复欢迎 发表评论: