百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

0043-如何在CDH中使用HPLSQL实现存储过程

mhr18 2024-10-02 16:54 17 浏览 0 评论

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.文档编写目的


目前版本的Hive中没有提供类似存储过程的功能,使用Hive做数据应用开发时候,一般有以下两种方法:

  1. 将一段一段的HQL语句封装在Shell或者其他脚本中,然后以命令行的方式调用,完成一个业务或者一张报表的统计分析。
  2. 使用HPL/SQL (Procedural SQL on Hadoop,在Hive的版本(2.0)中,会将该模块集成进来)。该解决方案不仅支持Hive,还支持在SparkSQL,其他NoSQL,甚至是RDBMS中使用类似于Oracle PL/SQL的功能,这将极大的方便数据开发者的工作,Hive中很多之前比较难实现的功能,现在可以很方便的实现,比如自定义变量、基于一个结果集的游标、循环等等。

本文档主要讲述如何使用HPL/SQL在Hive中实现存储过程。

  • 内容概述

1.安装及配置HPL/SQL

2.自定义函数和游标

3.存储过程改造

4.总结

  • 测试环境

1.CM和CDH版本为5.11.2

2.RedHat7.2

  • 前置条件

1.CDH集群正常

2.HiveServer2服务安装且正常运行

3.JDK1.6以上

2.安装及配置HPL/SQL


1.从http://www.hplsql.org/download下载最新的HPL/SQL

2.解压安装包

[ec2-user@ip-172-31-22-86 hive-plsql]$ tar -zxvf hplsql-0.3.31.tar.gz 
hplsql-0.3.31/
hplsql-0.3.31/hplsql-0.3.31.jar
hplsql-0.3.31/hplsql
hplsql-0.3.31/antlr-runtime-4.5.jar
hplsql-0.3.31/hplsql.cmd
hplsql-0.3.31/LICENSE.txt
hplsql-0.3.31/hplsql-site.xml
hplsql-0.3.31/README.txt
[ec2-user@ip-172-31-22-86 hive-plsql]$ 

3.修改执行权限

进入hplsql-0.3.31目录,修改hplsql文件执行权限

[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ sudo chmod +x hplsql

4.配置CDH集群环境

编辑hplsql文件,根据你的实际环境配置HADOOP_CLASSPATH,配置如下:

#!/bin/bash
CDH_HOME=/opt/cloudera/parcels/CDH/lib
JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/lib
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hadoop/*"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hadoop/lib/*"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/etc/hadoop/conf"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hadoop-mapreduce/*"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hadoop-mapreduce/lib/*"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hadoop-hdfs/*"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hadoop-hdfs/lib/*"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hadoop-yarn/*"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hadoop-yarn/lib/*"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hive/lib/*"
export "HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$CDH_HOME/hive/conf"
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$CDH_HOME/hadoop/lib/native"
SCRIPTPATH=`pwd`
java -cp $SCRIPTPATH:$HADOOP_CLASSPATH:$SCRIPTPATH/hplsql-0.3.31.jar:$SCRIPTPATH/antlr-runtime-4.5.jar $HADOOP_OPTS org.apache.hive.hplsql.Hplsql "$@"

以上标红部分需要根据你实际的环境进行配置。

5.测试配置是否生效

[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ ./hplsql -version
/home/ec2-user/hive-plsql/hplsql-0.3.31
HPL/SQL 0.3.31
[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ 

6.配置和启动Hive的JDBC服务HiveServer2

HPL/SQL与Hive通过JDBC方式连接,因此需要先启动HiveServer2。在Cloudera Manager中确认HiveServer2实例已经启动

7.配置HPL/SQL与Hive的连接

编辑hplsql-site.xml,修改以下配置,以连接到HiveServer2服务(注意,hostname默认是localhost,如果是从HiveServer2的主机连接,可以不用做任何修改)

<property>
 <name>hplsql.conn.default</name>
 <value>hive2conn</value>
 <description>The default connection profile</description>
</property>
<property>
 <name>hplsql.conn.hiveconn</name>
 <value>org.apache.hive.jdbc.HiveDriver;jdbc:hive2://localhost:10000;hive;hive</value>
 <description>HiveServer2 JDBC connection (embedded mode)</description>
</property>

8.使用hplsql执行HPL/SQL语句,测试是否正常运行

[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ ./hplsql -e "CURRENT_DATE+1"
[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ ./hplsql -e "SELECT * FROM test LIMIT 1" 

能够正确显示数据库列表,则说明与HiveServer2连接已经成功。创建测表,插入测试数据

[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ ./hplsql -e "create table test_table (id string, names string) stored as textfile"
[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ ./hplsql -e "insert into test_table values('1','a')"
[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ ./hplsql -e "select * from test_table"

3.自定义函数和游标


将下面的HPL/SQL语句保存到1.hql文件中:

CREATE FUNCTION hello(text STRING)
 RETURNS STRING
BEGIN
 RETURN 'Hello, ' || text || '!';
END;
FOR item IN (
 SELECT s1,s2 FROM test limit 10
)
LOOP
PRINT item.s1 || '|' || item.s2 || '|' || hello(item.s1);
END LOOP;

上面的语句中,第一部分创建了一个自定义函数hello,传入一个字符串,返回Hello,字符串! 第二部分使用FOR .. LOOP游标,从Hive的表中获取10条记录,打印出两个字段的内容。

使用命令./hplsql -f 1.hql指定上面的HPL/SQL语句块:

[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ ./hplsql -f 1.hql 
...
Query executed successfully (208 ms)
name1|age1|Hello, name1!
name2|age2|Hello, name2!
name3|age3|Hello, name3!
name4|age4|Hello, name4!
name5|age5|Hello, name5!
name6|age6|Hello, name6!
name7|age7|Hello, name7!
name8|age8|Hello, name8!
name9|age9|Hello, name9!
name10|age10|Hello, name10!
[ec2-user@ip-172-31-22-86 hplsql-0.3.31]$ 

4.存储过程改造


如下是使用TPC-DS真实示例改造的存储过程

需要改造的存储过程为:

改造为Hive存储过程:

执行该存储过程

执行完毕

任务在集群的Yarn中查看

结果查看:

5.总结


Hive的存储过程工具HPL/SQL:

  • 支持存储过程
  • 支持控制流
  • 支持异常处理
  • 支持游标
  • 支持package 语法

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。


您可能还想看

如何在CDH启用Kerberos的情况下安装及使用Sentry(一)

如何在CDH启用Kerberos的情况下安装及使用Sentry(二)

如何在CDH未启用认证的情况下安装及使用Sentry

如何实现CDH元数据库MySQL的主备

如何使用Sentry管理Hive外部表权限

如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据

CDH网络要求(Lenovo参考架构)

大数据售前的中年危机

CENTOS6.5安装CDH5.12.1(一)

CENTOS6.5安装CDH5.12.1(二)

CENTOS7.2安装CDH5.10和Kudu1.2(一)

CENTOS7.2安装CDH5.10和Kudu1.2(二)

如何在CDH中安装Kudu&Spark2&Kafka

如何在CDH集群启用Kerberos

如何升级Cloudera Manager和CDH

如何卸载CDH(附一键卸载github源码)

如何迁移Cloudera Manager节点


推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

相关推荐

【预警通报】关于WebLogic存在远程代码执行高危漏洞的预警通报

近日,Oracle官方发布了2021年1月关键补丁更新公告CPU(CriticalPatchUpdate),共修复了包括CVE-2021-2109(WeblogicServer远程代码执行漏洞)...

医院信息系统突发应急演练记录(医院信息化应急演练)

信息系统突发事件应急预案演练记录演练内容信息系统突发事件应急预案演练参与人员信息科参与科室:全院各部门日期xxxx-xx-xx时间20:00至24:00地点信息科记录:xxx1、...

一文掌握怎么利用Shell+Python实现完美版的多数据源备份程序

简介:在当今数字化时代,无论是企业还是个人,数据的安全性和业务的连续性都是至关重要的。数据一旦丢失,可能会造成无法估量的损失。因此,如何有效地对分布在不同位置的数据进行备份,尤其是异地备份,成为了一个...

docker搭建系统环境(docker搭建centos)

Docker安装(CentOS7)1.卸载旧版Docker#检查已安装版本yumlistinstalled|grepdocker#卸载旧版本yumremove-ydocker.x...

基础篇:数据库 SQL 入门教程(sql数据库入门书籍推荐)

SQL介绍什么是SQLSQL指结构化查询语言,是用于访问和处理数据库的标准的计算机语言。它使我们有能力访问数据库,可与多种数据库程序协同工作,如MSAccess、DB2、Informix、M...

Java21杀手级新特性!3行代码性能翻倍

导语某券商系统用这招,交易延迟从12ms降到0.8ms!本文揭秘Oracle官方未公开的Record模式匹配+虚拟线程深度优化+向量API神操作,代码量直降70%!一、Record模式匹配(代码量↓8...

一文读懂JDK21的虚拟线程(java虚拟线程)

概述JDK21已于2023年9月19日发布,作为Oracle标准Java实现的一个LTS版本发布,发布了15想新特性,其中虚拟线程呼声较高。虚拟线程是JDK21中引入的一项重要特性,它是一种轻量级的...

效率!MacOS下超级好用的Linux虚拟工具:Lima

对于MacOS用户来说,搭建Linux虚拟环境一直是件让人头疼的事。无论是VirtualBox还是商业的VMware,都显得过于笨重且配置复杂。今天,我们要介绍一个轻巧方便的纯命令行Linux虚拟工具...

所谓SaaS(所谓三维目标一般都应包括)

2010年前后,一个科技媒体的主编写一些关于云计算的概念性问题,就可以作为头版头条了。那时候的云计算,更多的还停留在一些概念性的问题上。而基于云计算而生的SaaS更是“养在深闺人未识”,一度成为被IT...

ORA-00600 「25027」 「x」报错(报错0xc0000001)

问题现象:在用到LOB大对象的业务中,进行数据的插入,失败了,在报警文件中报错:ORA-00600:内部错误代码,参数:[25027],[10],[0],[],[],[],[],[...

安卓7源码编译(安卓源码编译环境lunch失败,uname命令找不到)

前面已经下载好源码了,接下来是下载手机对应的二进制驱动执行编译源码命令下载厂商驱动https://developers.google.com/android/drivers?hl=zh-cn搜索NGI...

编译安卓源码(编译安卓源码 电脑配置)

前面已经下载好源码了,接下来是下载手机对应的二进制驱动执行编译源码命令下载厂商驱动https://developers.google.com/android/drivers?hl=zh-cn搜索NGI...

360 Vulcan Team首战告捷 以17.5万美金强势领跑2019“天府杯“

2019年11月16日,由360集团、百度、腾讯、阿里巴巴、清华大学与中科院等多家企业和研究机构在成都联合主办了2019“天府杯”国际网络安全大赛暨2019天府国际网络安全高峰论坛。而开幕当日最激荡人...

Syslog 日志分析与异常检测技巧(syslog发送日志配置)

系统日志包含有助于分析网络设备整体运行状况的重要信息。然而,理解并从中提取有效数据往往颇具挑战。本文将详解从基础命令行工具到专业日志管理软件的全流程分析技巧,助你高效挖掘Syslog日志价值。Gr...

从Oracle演进看数据库技术的发展(从oracle演进看数据库技术的发展的过程)

数据库技术发展本质上是应用需求驱动与基础架构演进的双向奔赴,如何分析其技术发展的脉络和方向?考虑到oracle数据库仍然是这个领域的王者,以其为例,管中窥豹,对其从Oracle8i到23ai版本的核...

取消回复欢迎 发表评论: