百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

多表关联查询的性能优化技巧:部分预关联

mhr18 2024-09-29 13:48 22 浏览 0 评论


一、 问题背景与适用场景


在《多表关联查询的性能优化技巧:预关联》中,我们测试了将数据表事先全部加载进内存并做好关联后的查询性能优化问题,但如果内存不够大,不能将维表和事实表全部装入,那怎么办呢?此时,可以将维表预先装入内存,建好索引,实现维表部分的预关联,省去一半hash计算。

我们下面再来测试一下这种场景,这次用数据量最大、内存装不下的lineitem表做测试,在SPL部分预关联中,将其它7张表预先装进内存,而lineitem在查询时才实时读入。


二、 SQL测试


依然用 Oracle 数据库作为 SQL 测试的代表,从lineitem表里查询每年零件订单的总收入。

1. 两表关联

查询的SQL语句如下:

select

l_year,

sum(volume) as revenue

from

(

select

extract(year from l_shipdate) as l_year,

(l_extendedprice * (1 - l_discount) ) as volume

from

lineitem,

part

where

p_partkey = l_partkey

and length(p_type)>2

) shipping

group by

l_year

order by

l_year;

2. 六表关联

查询的SQL语句如下:

select

l_year,

sum(volume) as revenue

from

(

select

extract(year from l_shipdate) as l_year,

(l_extendedprice * (1 - l_discount) ) as volume

from

supplier,

lineitem,

orders,

customer,

part,

nation n1,

nation n2

where

s_suppkey = l_suppkey

and p_partkey = l_partkey

and o_orderkey = l_orderkey

and c_custkey = o_custkey

and s_nationkey = n1.n_nationkey

and c_nationkey = n2.n_nationkey

and length(p_type) > 2

and n1.n_name is not null

and n2.n_name is not null

and s_suppkey > 0

) shipping

group by

l_year

order by

l_year;

3. 测试结果


这两个测试数据依然是多次运行后取最快的那次。

从测试结果可以看出,六表关联比两表关联慢了2669/235=11.4倍!性能下降非常多。


三、 SPL部分预关联测试


1. 部分预关联

实现预关联的SPL脚本如下:


脚本中前6行分别将6个维表读入内存,生成内表,并建好索引,再设成全局变量。后4行完成维表间连接。在SPL服务器启动时,就先运行此脚本,完成环境准备。

2. 两表关联

编写SPL脚本如下:


临时装载需要用游标,然后在游标上进行关联,之后的写法和全内存差不多。

3. 六表关联

编写SPL脚本如下:


类似地,建立好游标及关联后的写法和全内存差不多,一样非常简洁易懂。

4. 运行结果


六表关联仅仅比两表关联慢1.8倍,增加的时间主要用于事实表lineitem中L_ORDERKEY和L_SUPPKEY字段的关联以及增加的过滤条件计算量(引用这些关联表字段)的时间。因为有了部分预关联,维表之间关联运算本身不再消耗时间,而维表与lineitem表关联的时间,也因为事先建好索引而提高了性能(可以减少一半的hash计算)。


四、 结论


测试结果汇总:


六表关联比两表关联,SQL慢了11.4倍,说明SQL处理JOIN消耗CPU很大,性能降低明显。而采用部分预关联机制后的SPL只慢1.8倍,多JOIN几个表影响不大,性能不会明显下降。

在进行关联表较多的查询时,如果内存大到足以将除事实表之外的维表数据全部读入内存,使用部分预关联技术依然能有效地提升计算性能!而关系数据库用在关联表很多的时候会发生数据库引擎不会优化的问题,导致性能下降很严重。



友乾营是专注数据技术的知识分享平台。这里,你将有机会与近百位技术专家共同沟通交流,寻找优势互补,达成资源对接。另外,友乾营将定期(每周一次,周三晚19:30)安排专题技术直播活动。
欢迎IT从业者或对数据相关技术感兴趣的人员入群交流、分享。共同打造“有热度的话题,有温度的情感,有深度的思想,有高度的评论”高品质的友乾营社群。
识别下面二维码,在页面上加友乾营小助手为好友

相关推荐

Java培训机构,你选对了吗?(java培训机构官网)

如今IT行业发展迅速,不仅是大学生,甚至有些在职的员工都想学习java开发,需求量的扩大,薪资必定增长,这也是更多人选择java开发的主要原因。不过对于没有基础的学员来说,java技术不是一两天就能...

产品经理MacBook软件清单-20个实用软件

三年前开始使用MacBookPro,从此再也不想用Windows电脑了,作为生产工具,MacBook可以说是非常胜任。作为产品经理,值得拥有一台MacBook。MacBook是工作平台,要发挥更大作...

RAD Studio(Delphi) 本月隆重推出新的版本12.3

#在头条记录我的2025#自2024年9月,推出Delphi12.2版本后,本月隆重推出新的版本12.3,RADStudio12.3,包含了Delphi12.3和C++builder12.3最...

图解Java垃圾回收机制,写得非常好

什么是自动垃圾回收?自动垃圾回收是一种在堆内存中找出哪些对象在被使用,还有哪些对象没被使用,并且将后者删掉的机制。所谓使用中的对象(已引用对象),指的是程序中有指针指向的对象;而未使用中的对象(未引用...

Centos7 初始化硬盘分区、挂载(针对2T以上)添加磁盘到卷

1、通过命令fdisk-l查看硬盘信息:#fdisk-l,发现硬盘为/dev/sdb大小4T。2、如果此硬盘以前有过分区,则先对磁盘格式化。命令:mkfs.文件系统格式-f/dev/sdb...

半虚拟化如何提高服务器性能(虚拟化 半虚拟化)

半虚拟化是一种重新编译客户机操作系统(OS)将其安装在虚拟机(VM)上的一种虚拟化类型,并在主机操作系统(OS)运行的管理程序上运行。与传统的完全虚拟化相比,半虚拟化可以减少开销,并提高系统性能。虚...

HashMap底层实现原理以及线程安全实现

HashMap底层实现原理数据结构:HashMap的底层实现原理主要依赖于数组+链表+红黑树的结构。1、数组:HashMap最底层是一个数组,称为table,它存放着键值对。2、链...

long和double类型操作的非原子性探究

前言“深入java虚拟机”中提到,int等不大于32位的基本类型的操作都是原子操作,但是某些jvm对long和double类型的操作并不是原子操作,这样就会造成错误数据的出现。其实这里的某些jvm是指...

数据库DELETE 语句,还保存原有的磁盘空间

MySQL和Oracle的DELETE语句与数据存储MySQL的DELETE操作当你在MySQL中执行DELETE语句时:逻辑删除:数据从表中标记为删除,不再可见于查询结果物理...

线程池—ThreadPoolExecutor详解(线程池实战)

一、ThreadPoolExecutor简介在juc-executors框架概述的章节中,我们已经简要介绍过ThreadPoolExecutor了,通过Executors工厂,用户可以创建自己需要的执...

navicat如何使用orcale(详细步骤)

前言:看过我昨天文章的同鞋都知道最近接手另一个国企项目,数据库用的是orcale。实话实说,也有快三年没用过orcale数据库了。这期间问题不断,因为orcale日渐消沉,网上资料也是真真假假,难辨虚...

你的程序是不是慢吞吞?GraalVM来帮你飞起来性能提升秘籍大公开

各位IT圈内外的朋友们,大家好!我是你们的老朋友,头条上的IT技术博主。不知道你们有没有这样的经历:打开一个软件,半天没反应;点开一个网站,图片刷不出来;或者玩个游戏,卡顿得想砸电脑?是不是特别上火?...

大数据正当时,理解这几个术语很重要

目前,大数据的流行程度远超于我们的想象,无论是在云计算、物联网还是在人工智能领域都离不开大数据的支撑。那么大数据领域里有哪些基本概念或技术术语呢?今天我们就来聊聊那些避不开的大数据技术术语,梳理并...

秒懂列式数据库和行式数据库(列式数据库的特点)

行式数据库(Row-Based)数据按行存储,常见的行式数据库有Mysql,DB2,Oracle,Sql-server等;列数据库(Column-Based)数据存储方式按列存储,常见的列数据库有Hb...

AMD发布ROCm 6.4更新:带来了多项底层改进,但仍不支持RDNA 4

AMD宣布,对ROCm软件栈进行了更新,推出了新的迭代版本ROCm6.4。这一新版本里,AMD带来了多项底层改进,包括更新改进了ROCm的用户空间库和AMDKFD内核驱动程序之间的兼容性,使其更容易...

取消回复欢迎 发表评论: