百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

0505-使用Apache Hive3实现跨数据库的联邦查询

mhr18 2024-10-13 02:56 40 浏览 0 评论

如今的企业内部一般都有多个系统用于数据存储和数据处理。这些不同的系统各自服务于不同的应用场景或案例。除了传统的RDBMS如Oracle DB,Teradata或PostgreSQL之外,团队可能还使用了Apache Kafka用作流式处理,使用Apache Druid来保存时序数据,使用Apache Phoenix进行快速索引查找。此外,他们可能还使用了云存储服务或HDFS来批量存储数据。

平台的团队一般会并行的部署所有这些系统,方便开发人员可以灵活的选择这些工具来满足不同的业务分析需求。

1

使用Apache Hive3.0&SQL来进行统一访问

Apache Hive在上述环境中扮演着重要角色。更具体一点的说,它可以访问上述所有系统,并提供统一高效的SQL访问,而且是开箱即用的。这样做的好处是巨大的:

1.单个SQL方言和API

2.集中安全控制和审计跟踪

3.统一治理

4.能够合并来自多个数据源的数据

5.数据独立性

设置和使用Apache Hive作为联邦层可简化应用程序开发和数据访问。特别是所有数据都可以使用SQL进行处理,并且可以通过熟悉的JDBC/ODBC接口进行访问。

最重要的事,因为所有的数据访问都会通过Hive,当Hive与不同的系统进行交互时,它可以提供统一的安全控制(表,行和列访问控制),数据溯源和审计。

最后,你还可以保证数据的独立性:如果所有的访问都被抽象为通过SQL表或视图,更改存储或处理引擎则会比较容易。

2

基于成本优化的智能下推

假设你要执行一个Hive查询,该查询通过JDBC连接到后端的RDBMS访问数据。一种天真的想法是将JDBC源视为“哑”(dumb)的存储系统,通过JDBC读取所有原始数据并在Hive中处理它。在这种情况下,实际我们就忽略了RDBMS本身的查询功能,然后通过JDBC链接抽取了过多的数据,从而很容易导致性能不佳和系统过载。

出于这个原因,Hive依靠其storage handler接口和Apache Calcite支持的基于成本的优化器(CBO)实现了对其他系统的智能下推。特别是,Calcite提供与查询的逻辑表示中的运算符子集匹配的规则,然后生成在外部系统中等效的表示以执行更多操作。Hive在其查询计划器中将计算推送到外部系统,并且依靠Calcite生成外部系统支持的查询语言。storage handler的实现负责将生成的查询发送到外部系统,检索其结果,并将传入的数据转换为Hive内部表示,以便在需要时进一步处理。

这不仅限于SQL系统:例如,Apache Hive也可以联邦Apache Druid或Apache Kafka进行查询,正如我们在最近的博文中所描述的,Druid可以非常高效的处理时序数据的汇总和过滤。因此,当对存储在Druid中的数据源执行查询时,Hive可以将过滤和聚合推送给Druid,生成并发送JSON查询到引擎暴露的REST API。另一方面,如果是查询Kafka上的数据,Hive可以在分区或offset上推送过滤器,从而根据条件读取topic中的数据。

https://hortonworks.com/blog/benchmark-update-apache-hive-druid-integration-hdp-3-0/

3

联邦到JDBC源端

storage handler和Calcite适配器的组合非常灵活,功能也非常强大,尤其是将Hive作为不同SQL系统的联邦层时。

Apache Hive3包含了JDBC storage handler的新实现,它可以让Calcite的JDBC适配器规则有选择地将计算推送到JDBC源端,如MySQL,PostgreSQL,Oracle或Redshift。Hive可以推送各种各样的操作,包括projections, filters, joins, aggregations, unions, sorting和limit。

更重要的是,Calcite可以根据JDBC源端的系统调整行为。 例如,它可以识别JDBC源端系统不支持查询中的过滤条件中使用的某个函数。在这种情况下,它将在Hive中执行它,同时仍将其余支持的过滤条件推送到JDBC系统。此外,Hive可以使用不同的方言生成SQL,具体取决于JDBC连接后面的数据库。

另一个重要特性是JDBC storage handler可以将查询拆分为多个子查询,这些子查询将并行发送到执行引擎,以加速从数据源中读取大量数据。

下图是一个示例说明了Hive的新JDBC下推功能。可以发现当生成MySQL和PostgreSQL的查询SQL语句时会有延迟。

4

接下来的工作:自动元数据映射

要查询其他系统中的数据,用户只需使用相应的storage handler来创建一张Hive外部表,当然还包含该外部系统的一些其他信息。例如:如果用户想在Hive中创建一张来自PostgreSQL数据库'organization'中的表'item',可以使用以下语句来创建:

虽然你看这个建表语句已经够简单的了,但是我们对Hive该功能的期望远不止于此。

如上例所示,建表语句还需要指定PostgreSQL中该表的schema。在HIVE-21060中,如果是通过JDBC配置的外部表,希望Hive可以自动发现schema,而不用在建表语句中声明。

HIVE-21060:

https://jira.apache.org/jira/browse/HIVE-21060

而HIVE-21059中,则是开发实现外部的catalog支持。外部catalog允许在metastore中创建一个新的catalog,这个catalog会指向一个外部的mysql数据库,这样在这个catalog之下,所有表都可以自动被Hive识别然后查询。

HIVE-21059:

https://jira.apache.org/jira/browse/HIVE-21059

5

总结

联邦功能为Hive带来了很大的灵活性,以下我们具体看看你可以使用它来干什么:

1.Combining best tools for the job:应用程序开发人员可以通过单一界面访问多个数据处理系统。无需学习不同的查询方言或接口, 无需担心数据安全和数据治理,统统都由Hive负责。这极大地简化了集成工作。

2.Transform & write-back: 使用该功能,你可以使用Hive SQL转换保存在Hive之外的数据。例如,你可以使用Hive查询Kafka,转换数据,然后将其回写到Kafka。

3.Simplifying data-loads:你现在可以直接从Hive查询其他系统,清洗数据,强化数据,最后将数据合并到Hive表中,而无需部署任何其他工具。这使得ETL变得非常简单。

4.Query across multiple systems: 对于某些ad-hoc查询或小的报表,定义ETL处理过程并将数据都移动到同一个存储位置是不现实的。使用该功能,你只需要编写一个查询SQL跨多个数据源即可。

我们希望以上建议对你有帮助,不信你可以试试。

原文参考:

https://hortonworks.com/blog/query-federation-with-hive/

相关推荐

C++开发必知的内存问题及常用的解决方法-经典文章

1.内存管理功能问题由于C++语言对内存有主动控制权,内存使用灵活和效率高,但代价是不小心使用就会导致以下内存错误:omemoryoverrun:写内存越界odoublefree:同一块内...

缓存用不好,系统崩得早!10条军规让你成为缓存高手

凌晨三点,我被电话惊醒:“苏工!首页崩了!”监控显示:缓存命中率0%,数据库QPS10万+,线程阻塞2000+。根本原因竟是同事没加缓存!不会用缓存的程序员,就像不会刹车的赛车手——...

彻底搞清楚内存泄漏的原因,如何避免内存泄漏,如何定位内存泄漏

作为C/C++开发人员,内存泄漏是最容易遇到的问题之一,这是由C/C++语言的特性引起的。C/C++语言与其他语言不同,需要开发者去申请和释放内存,即需要开发者去管理内存,如果内存使用不当,就容易造成...

Java中间件-Memcached(Java中间件大全)

一、知识结构及面试题目分析缓存技术的大规模使用是互联网架构区别于传统IT技术最大的地方,是整体高并发高性能架构设计中是重中之重的关键一笔,也是互联网公司比较偏好的面试题目。按照在软件系统中所处位置...

linux内存碎片防治技术(linux内存碎片整理)

推荐视频:90分钟了解Linux内存架构,numa的优势,slab的实现,vmalloc原理剖析Linux内核内存分配与回收Linuxkernel组织管理物理内存的方式是buddysystem(伙...

Redis主从架构详解(redis主从配置详细过程)

Redis主从架构搭建Redis主节点配置创建主节点目录(/opt/redis-master),复制redis.conf到该目录下,redis.conf配置项修改#后台启动daemonizeyes...

揭开CXL内存的神秘面纱(内存c1)

摘要:现代数据中心对内存容量的高需求促进了内存扩展和分解方面的多条创新线,其中一项获得极大关注的工作是基于ComputeeXpressLink(CXL)的内存扩展。为了更好地利用CXL,研究人员建...

一文彻底弄懂 TPS RPS QPS(tps cps)

以下是关于RPS、QPS、TPS的核心区别与关联的总结,结合实际场景和优化建议:一、核心定义与区别RPS:RequestsPerSecond每秒请求数客户端到服务器的完整请求数量Web服务...

用Redis的“集合”找出你和朋友的“共同关注”

你是不是在刷抖音、微博、小红书的时候,常常会看到这样的提示:“你和XXX有共同关注的博主/朋友”?或者当你关注了一个新的明星,系统会推荐“你的朋友YYY也关注了这位明星”?这个看似简单的功能背后,其实...

WOT2016彭哲夫:科班出身开发者对运维人员的期许

“运维与开发”是老生常谈的话题,前几天和一个运维人聊天,TA说一些公司运维岗位都不公开招聘了,这让众多运维人员情何以堪?是运维的岗位真的饱和了?是找到合适的运维人才难?还是有这样那样的因素?带着这些疑...

Java程序员最常用的20%技术总结(java程序员要掌握什么)

我听说编程语言,经常使用的是其中20%的技术。在Java这门语言中,这20%包括哪些内容?找到一份Java初级程序员的工作,有哪些是必须掌握的,有哪些是可以现学现卖的?一个完整的Javaweb项目,有...

秒杀系统实战(四)| 缓存与数据库双写一致性实战

前言微笑挖坑,努力填坑。————已经拥有黑眼圈,但还没学会小猪老师时间管理学的蛮三刀同学本文是秒杀系统的第四篇,我们来讨论秒杀系统中「缓存热点数据」的问题,进一步延伸到数据库和缓存的...

头条评论精灵翻牌子(头条评论精灵翻牌子怎么弄)

关于“头条评论精灵翻牌子”功能,这通常是指平台通过算法或运营手段,将用户的优质评论随机或定向推送到更显眼的位置(如信息流顶部、独立曝光位等),以提升互动率和用户参与感。以下是详细解析和建议:一、功能理...

15个程序员们都应该知道的大模型高级提示词指令模板和示例

作为程序员你如何写大模型指令?你写的指令是不是更专业呢?下面是15个程序员使用的专业的大模型指令,如果早知道可以能节省你很多时间。这些指令可以用在chatgpt,deepseek等大模型。1.一键...

MyBatis-Plus内置的主键生成策略有大坑,要注意!

昨天小伙伴使用Mybaits-Plus开发的项目线上(集群、K8S)出现了主键重复问题,其报错如下:Mybatis-Plus启动时会通过com.baomidou.mybatisplus.core.to...

取消回复欢迎 发表评论: