百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

大数据Apache Druid(二):Druid数据结构及架构原理

mhr18 2025-01-03 17:28 26 浏览 0 评论

#头条创作挑战赛#

Druid数据结构及架构原理


一、Druid数据结构


Druid中的数据存储在datasource中,类似RDBMS中的table,每个datasource中按照时间划分,每个时间范围称为一个chunk(一般一天为一个chunk),在一个chunk中数据根据维度的Hash或者范围被分成一个或者多个segment,每个segment都是一个单独的文件,通常包含几百万行数据,这些segment是按照时间组织成的,所以在按照时间查询数据时,效率非常高。实际上,datasource和chunk都是抽象的,Druid底层存储就是Segment,一旦一个Segment生成后就无法被修改,只能通过生成一个新的Segment来代替旧版本的Segment。




Segment内部采用列式存储,并不是每个列都对应一个独立的文件,而是每列都有独立的数据结构,这些列存储在一个文件中。


在Segment中数据类型有三种:时间戳、维度列、指标列,举例如下:



对于时间戳和指标列,实际存储是一个数组。对于维度列而言,由于需要支持filter和group by操作,所以Druid使用了字典编码(Dictionary Encoding)和位图索引(Bitmap Index)来存储每个维度列。每个维度列需要三个数据结构:


  • 需要一个字典数据结构,将维度值映射成一个整数ID
  • 使用上面的字典编码,将该列所有维值放在一个列表中。
  • 对于列中不同的值,使用bitmap数据结构标识哪些行包含这些值。


例如,有如下表数据:


时间戳

维度列

指标列

dt(时间)

loc(位置)

item(物品)

amount(金额)

2022-07-01

北京

书籍

100

2022-07-01

北京

电脑

200

2022-07-01

上海

电脑

300

2022-07-01

广州

手机

400

2022-07-01

杭州

水果

500

2022-07-01

北京

书籍

600


Druid将以上数据存储构建的位图索引如下,来实现数据快速查找:


  • 将维度列中的值映射成一个个整数ID


维度列有loc,item两列,其中的不重复值有:北京、上海、广州、杭州、书籍、电脑、手机、水果,假设映射后的整数ID组成的字典编码如下:


北京-0,上海-1,广州-2,杭州-3,书籍-4,电脑-5,手机-6,水果-7


  • 构建的位图索引如下


原始列值

key

列值对应字典编码value

bitmap 位图

北京

0

1

1

0

0

0

1

上海

1

0

0

1

0

0

0

广州

2

0

0

0

1

0

0

杭州

3

0

0

0

0

1

0

书籍

4

1

0

0

0

0

1

电脑

5

0

1

1

0

0

0

手机

6

0

0

0

1

0

0

水果

7

0

0

0

0

1

0


我们要过滤找到“北京”并且“电脑”的数据,那么只需要在位图索引中找到北京对应的行和广州对应的行做与运算即可。假设根据上表数据我们查询sql如下:


select sum(amount) as totalamount 
from tbl 
where loc = “北京”and “item”=“电脑”


那么根据以上位图,我们可以看到条件“loc=北京”对应的bitmap位图为(110001),”item=电脑”对应的位图为(011000),查询条件就是(110001) and(011000)结果就是找(010000)所对应的行,也就是找出第2行数据即可。


同理,如果要按照“loc”和”“item”分组,只需要找到“loc”下各个值与“item”下各个值进行与运算即可。


Segment命名可以让我们在大量的Segment文件中快速找到我们查询的Segment文件,Segment命名包含四个部分:数据源(DataSource)、时间间隔(包含开始时间和结束时间两部分)、版本号和分区(当一个Chunk中有多个Segment时会有分区号)。


例如:


kafkadata_2022-07-30T00:00:00.000Z_2022-07-31T00:00:00.000Z_2022-08-02T12:02:03.456Z_1


  • kafkadata : DataSource名称。
  • 2022-07-30T00:00:00.000Z:开始时间,该Segment存储最早的数据。
  • 2022-07-31T00:00:00.000Z:结束时间,该Segment存储最晚的数据。
  • 2022-08-02T12:02:03.456Z:版本号,该Segment启动时间,由于Druid支持批量覆盖操作,当批量摄入与之前相同数据源,相同时间间隔数据时,数据就会被覆盖,这时候版本号就会被更新。在Druid中,如果只是追加数据,那么每个时间chunk只有一个版本,如果覆盖数据时,Druid会加载全部新数据生成一个新的版本号,然后会删除旧的Segment。
  • 1:分区号,如果分区号为0,会省略,分区的表现其实就是分目录。


注意:单机运行Druid,Druid生成的Segment都在$DRUID_HOME/var/druid/segment目录下。


二、Druid架构原理


下图是Druid的架构图,蓝色代表Druid服务,黄色代表Druid的进程,每个进程所在的节点我们也可以称为当前进程节点,例如:Borker进程所在节点,可以称为该节点为Broker节点。整体来看Druid可以分为四类节点和三个依赖。



1、四类节点


1.1、实时节点(RealTime Node)


实时类节点包含很多进程角色,也可以称为很多,为了防止单点故障,所以这些角色没有在一台节点启动,实时类节点包含的进程如下:


  • Overlord(统治进程)


该进程监视MiddleManager进程,并且是数据摄入Druid的控制器,负责将提取任务分配给MiddleManagers并协调Segement发布。类似Yarn中的ResourceManager,负责集群资源的管理和分配。


  • MiddleManager(中间管理进程)


类似Yarn中NodeManager,负责单个节点的资源管理和分配。该进程负责接收实时数据和批数据,生成Segment数据文件。


  • Router


该进程可以将请求路由到Broker、Coordinator、Overlord。


1.2、协调节点(Coodinator Node)


  • Coordinator(协调进程)


主要负责Historical的数据负载均衡,以及通过规则(Rule)管理数据的生命周期。默认每隔1分钟同步元数据库,感知新生成的Segment,将待加载的Segment信息保存在Zookeeper目录中(此目录是对应在线的Historical Node在Zookeeper中的目录),Historical Node感知到需要加载新的Segment时,首先去本地磁盘目录下检查该Segment是否已下载,如果没有,会从zookeeper中获取对应的元数据(该Segment存储在何处,如果解压等)获取该文件并加载到内存中,同时在zookeeper对应目录下标记声明该Segment已被加载,从而该Segment可以被查询。


协调进程除了告诉Historical加载新数据之外,还会负责协调卸载过期数据、复制数据、和为了负载均衡移动数据。


如果集群内所有的Coordinator Node都停止服务,整个集群对外依然有效,不过新Segment不会被加载,过期的Segment也不会被丢弃,即整个集群内的数据拓扑会一直保持不变,直到新的Coordinator Node服务上线。


1.3、历史节点(Historical Node)


  • Historical(历史进程)


该进程负责存储已生成好的Segment数据文件,以供数据查询。当收到Coordinator进程通知的时候,检查本地缓存中已经存在的Segment数据文件,然后从DeepStorage中下载其他不在本地的Segment数据文件加载到内存提供查询。Historical进程是整个集群查询性能的核心所在,承担大部分的Segment查询。


1.4、查询节点(Broker Node)


  • Borker(查询进程)


该进程负责客户端数据的查询,并将这些查询转发给Historical和middleManager。


Druid进程可以以任意方式进行部署,为了方便部署,建议分为三种服务器类型:主服务器(Master)、查询服务器(Query)、数据服务器(Data)。


  • Master:运行Coordinator和Overlord进程,负责集群可用和读取数据。
  • Query:运行Broker和Router进程,负责处理外部客户端的查询。
  • Data:运行Historical和Middle Manager进程,负责数据接收和所有可查询数据的存储。


2、??????三个外部依赖



2.1、Metadata Storage


元数据存储,存储Druid集群的元数据信息,比如:Segment的相关信息,一般用MySQL或者PostgreSQL。


2.2、Zookeeper


为Druid集群提供协调服务,例如:


  • Broker Node查询节点通过Zookeeper来感知实时节点和历史节点的存在,提供查询服务。
  • 协调节点通过zookeeper感知历史节点,实现负载均衡。
  • Overlords 统治节点、Coordinators协调节点的Leader的选举。


2.3、Deep Storage


数据文件存储,存放生成的Segment数据文件,并供Historical节点进行下载,对于单节点集群可以使本地磁盘,对于分布式集群一般是HDFS,也可以是NFS挂载磁盘、S3等。


3、??????????????数据写入及读取原理



上图中描述了Druid集群内部实时/批量数据写入以及查询的请求过程。当实时数据达到Realtime Node后,在时间窗口内的数据会停留在RealTime Node内存中,而时间窗口外的数据会组织成Segment存储到Deep Storage中,同时Segment的元数据信息会被注册到元数据库中(这里是MySQL),Coordinator Nodes会定期(默认1分钟)去同步原信息库,感知新生成的Segment,并通知Historical Nodes去加载Segment,Zookeeper也会更新整个集群内部数据元数据信息。


当用户在客户端查询信息时,会将请求提交给Broker Node,Broker Node会请求Zookeeper获取集群内数据分布信息,从而获取将请求发送给哪些Historical Node以及Realtime Node,汇总各节点的返回数据并将最终结果返回给用户。

相关推荐

Redis合集-使用benchmark性能测试

采用开源Redis的redis-benchmark工具进行压测,它是Redis官方的性能测试工具,可以有效地测试Redis服务的性能。本次测试使用Redis官方最新的代码进行编译,详情请参见Redis...

Java简历总被已读不回?面试挂到怀疑人生?这几点你可能真没做好

最近看了几十份简历,发现大部分人不是技术差,而是不会“卖自己”——一、简历死穴:你写的不是经验,是岗位说明书!反面教材:ד使用SpringBoot开发项目”ד负责用户模块功能实现”救命写法:...

redission YYDS(redission官网)

每天分享一个架构知识Redission是一个基于Redis的分布式Java锁框架,它提供了各种锁实现,包括可重入锁、公平锁、读写锁等。使用Redission可以方便地实现分布式锁。red...

从数据库行锁到分布式事务:电商库存防超卖的九重劫难与破局之道

2023年6月18日我们维护的电商平台在零点刚过3秒就遭遇了严重事故。监控大屏显示某爆款手机SKU_IPHONE13_PRO_MAX在库存仅剩500台时,订单系统却产生了1200笔有效订单。事故复盘发...

SpringBoot系列——实战11:接口幂等性的形而上思...

欢迎关注、点赞、收藏。幂等性不仅是一种技术需求,更是数字文明对确定性追求的体现。在充满不确定性的网络世界中,它为我们建立起可依赖的存在秩序,这或许正是技术哲学最深刻的价值所在。幂等性的本质困境在支付系...

如何优化系统架构设计缓解流量压力提升并发性能?Java实战分享

如何优化系统架构设计缓解流量压力提升并发性能?Java实战分享在高流量场景下。首先,我需要回忆一下常见的优化策略,比如负载均衡、缓存、数据库优化、微服务拆分这些。不过,可能还需要考虑用户的具体情况,比...

Java面试题: 项目开发中的有哪些成长?该如何回答

在Java面试中,当被问到“项目中的成长点”时,面试官不仅想了解你的技术能力,更希望看到你的问题解决能力、学习迭代意识以及对项目的深度思考。以下是回答的策略和示例,帮助你清晰、有说服力地展示成长点:一...

互联网大厂后端必看!Spring Boot 如何实现高并发抢券逻辑?

你有没有遇到过这样的情况?在电商大促时,系统上线了抢券活动,结果活动刚一开始,服务器就不堪重负,出现超卖、系统崩溃等问题。又或者用户疯狂点击抢券按钮,最后却被告知无券可抢,体验极差。作为互联网大厂的后...

每日一题 |10W QPS高并发限流方案设计(含真实代码)

面试场景还原面试官:“如果系统要承载10WQPS的高并发流量,你会如何设计限流方案?”你:“(稳住,我要从限流算法到分布式架构全盘分析)…”一、为什么需要限流?核心矛盾:系统资源(CPU/内存/数据...

Java面试题:服务雪崩如何解决?90%人栽了

服务雪崩是指微服务架构中,由于某个服务出现故障,导致故障在服务之间不断传递和扩散,最终造成整个系统崩溃的现象。以下是一些解决服务雪崩问题的常见方法:限流限制请求速率:通过限流算法(如令牌桶算法、漏桶算...

面试题官:高并发经验有吗,并发量多少,如何回复?

一、有实际高并发经验(建议结构)直接量化"在XX项目中,系统日活用户约XX万,核心接口峰值QPS达到XX,TPS处理能力为XX/秒。通过压力测试验证过XX并发线程下的稳定性。"技术方案...

瞬时流量高并发“保命指南”:这样做系统稳如泰山,老板跪求加薪

“系统崩了,用户骂了,年终奖飞了!”——这是多少程序员在瞬时大流量下的真实噩梦?双11秒杀、春运抢票、直播带货……每秒百万请求的冲击,你的代码扛得住吗?2025年了,为什么你的系统一遇高并发就“躺平”...

其实很多Java工程师不是能力不够,是没找到展示自己的正确姿势。

其实很多Java工程师不是能力不够,是没找到展示自己的正确姿势。比如上周有个小伙伴找我,五年经验但简历全是'参与系统设计''优化接口性能'这种空话。我就问他:你做的秒杀...

PHP技能评测(php等级考试)

公司出了一些自我评测的PHP题目,现将题目和答案记录于此,以方便记忆。1.魔术函数有哪些,分别在什么时候调用?__construct(),类的构造函数__destruct(),类的析构函数__cal...

你的简历在HR眼里是青铜还是王者?

你的简历在HR眼里是青铜还是王者?兄弟,简历投了100份没反应?面试总在第三轮被刷?别急着怀疑人生,你可能只是踩了这些"隐形求职雷"。帮3630+程序员改简历+面试指导和处理空窗期时间...

取消回复欢迎 发表评论: