百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 优雅编程 > 正文

性能优化技巧:遍历复用提速多次分组

sinye56 2024-10-15 15:45 10 浏览 0 评论

我们知道,大数据运算性能的瓶颈常常是在外存(也就是硬盘)IO上,因为外存访问性能要比内存低一两个数量级。因此,做性能优化时,减少硬盘的访问量有时要比减少CPU计算量更为重要。同一个任务,如果能使用硬盘访问量更少的算法,即使CPU计算量不变甚至略多一点,也会获得更好的性能。

分组汇总需要对数据集进行遍历。同一个数据集可能会按不同维度进行分组,这样原则上就要遍历多次,大数据时就会涉及多遍硬盘访问。但是,如果我们能在一次遍历过程中计算出多个维度的分组结果,那就会减少很多硬盘访问量。

可惜,SQL无法写出这样的运算(在遍历中返回多个分组结果),只能遍历多次,或者寄希望于数据库引擎是否能优化。而SPL则支持这种遍历复用的语法,可以一次遍历计算出多个分组结果,从而提高性能。

下面我们做一下测试,以Oracle为例看数据库是否会对多次遍历的计算进行优化,以及在SPL中采用遍历复用算法对性能的影响。


一、 数据准备和环境


SPL脚本生成数据文件,数据共两列,第一列id是小于20亿的随机整数,第二列amount是不大于1千万的随机实数。数据记录为80亿行,生成的原始文本文件大小为169G。利用数据库提供的数据导入工具将此文件数据导入到Oracle的数据表topn中,同时也用此文件数据生成SPL组表文件topn.ctx。

在一台Intel服务器上完成测试,2个Intel3014 CPU,主频1.7G,共12核,内存64G。数据库表数据及SPL组表文件均存储在同一块SSD硬盘上。

这里刻意把数据量造得比内存大,以保证操作系统不可能把这些数据都缓存进内存,实际运算时一定会读取硬盘。


二、 Oracle测试


测试分成三种情况:单分组单倍计算量、单分组双倍计算量、双分组双倍计算量。

1. 单分组单倍计算量

select /*+ parallel(12) */ mod(id,100) Aid,max(amount) Amax from topn group by mod(id,100)


2. 单分组双倍计算量

select /*+ parallel(12) */ mod(id,100)+floor(id/20000000) Aid, max(amount) Amax, min(amount) Amin from topn group by mod(id,100)+floor(id/20000000);

计算式多了一倍,相当于计算量大了一倍。

3. 双分组双倍计算量

select /*+ parallel(12) */ * from (select mod(id,100) Aid,max(amount) Amax from topn group by mod(id,100) ) A
join
( select floor(id/20000000) Bid,min(amount) Bmin from topn group by floor(id/20000000) ) B
on A.Aid=B.Bid;

这里的计算量大体与2相同,但有两个分组,我们将观察数据库是否会进行两次遍历。最后的JOIN运算只涉及100行数据,时间可以忽略不计。


三、 SPL测试


我们把Oracle做的测试用SPL再做一遍。

1. 单分组单倍计算量

编写SPL脚本执行测试:


2. 单分组双倍计算量

编写SPL脚本执行测试:


3. 双分组双倍计算量

编写SPL脚本执行测试:


这里采用了SPL特有的遍历复用语法,在A3定义了游标,A4/B4和A5/B5中定义了两套针对这个游标的计算,表示会在一次游标遍历过程同时计算这两个结果。


四、 分析与结论


三种情况的测试用时如下表:

测试结果(时间单位:秒)



从Oracle的测试结果上看,双分组双倍计算量比单分组双倍计算量慢了近200秒,这不是一个可以忽略的时间了,因为两者的计算量几乎相同,这多出来的时间估计就是多做一次遍历的时间了。这说明数据库不会自动做遍历复用的优化,在双分组时会将数据表遍历两次,结果多做一次分组几乎会多出一倍的时间。

而SPL采用了遍历复用的机制,三个测试的计算时间相差很小,多做一次分组并不会多一次遍历,只是多了一些复用控制的逻辑,不会变慢多少。

说明一下,准备数据时把Oracle的amount字段类型设置成decimal了,所以计算速度比较慢;而SPL组表中用的是double类型,所以要快得多。但这个测试不是对比Oracle和SPL的计算性能,这些不同并不影响上面的结论。

相关推荐

程序员:JDK的安装与配置(完整版)_jdk的安装方法

对于Java程序员来说,jdk是必不陌生的一个词。但怎么安装配置jdk,对新手来说确实头疼的一件事情。我这里以jdk10为例,详细的说明讲解了jdk的安装和配置,如果有不明白的小伙伴可以评论区留言哦下...

Linux中安装jdk并配置环境变量_linux jdk安装教程及环境变量配置

一、通过连接工具登录到Linux(我这里使用的Centos7.6版本)服务器连接工具有很多我就不一一介绍了今天使用比较常用的XShell工具登录成功如下:二、上传jdk安装包到Linux服务器jdk...

麒麟系统安装JAVA JDK教程_麒麟系统配置jdk

检查检查系统是否自带java在麒麟系统桌面空白处,右键“在终端打开”,打开shell对话框输入:java–version查看是否自带java及版本如图所示,系统自带OpenJDK,要先卸载自带JDK...

学习笔记-Linux JDK - 安装&配置

前提条件#检查是否存在JDKrpm-qa|grepjava#删除现存JDKyum-yremovejava*安装OracleJDK不分系统#进入安装文件目...

Linux新手入门系列:Linux下jdk安装配置

本系列文章是把作者刚接触和学习Linux时候的实操记录分享出来,内容主要包括Linux入门的一些理论概念知识、Web程序、mysql数据库的简单安装部署,希望能够帮到一些初学者,少走一些弯路。注意:L...

测试员必备:Linux下安装JDK 1.8你必须知道的那些事

1.简介在Oracle收购Sun后,Java的一系列产品就被整合到Oracle官网中,打开官网乍眼一看也不知道去哪里下载,还得一个一个的摸索尝试,而且网上大多数都是一些Oracle收购Sun前,或者就...

Linux 下安装JDK17_linux 安装jdk1.8 yum

一、安装环境操作系统:JDK版本:17二、安装步骤第一步:下载安装包下载Linux环境下的jdk1.8,请去官网(https://www.oracle.com/java/technologies/do...

在Ubuntu系统中安装JDK 17并配置环境变量教程

在Ubuntu系统上安装JDK17并配置环境变量是Java开发环境搭建的重要步骤。JDK17是Oracle提供的长期支持版本,广泛用于开发Java应用程序。以下是详细的步骤,帮助你在Ubuntu系...

如何在 Linux 上安装 Java_linux安装java的步骤

在桌面上拥抱Java应用程序,然后在所有桌面上运行它们。--SethKenlon(作者)无论你运行的是哪种操作系统,通常都有几种安装应用程序的方法。有时你可能会在应用程序商店中找到一个应用程序...

Windows和Linux环境下的JDK安装教程

JavaDevelopmentKit(简称JDK),是Java开发的核心工具包,提供了Java应用程序的编译、运行和开发所需的各类工具和类库。它包括了JRE(JavaRuntimeEnviro...

linux安装jdk_linux安装jdk软连接

JDK是啥就不用多介绍了哈,外行的人也不会进来看我的博文。依然记得读大学那会,第一次实验课就是在机房安装jdk,编写HelloWorld程序。时光飞逝啊,一下过了十多年了,挣了不少钱,买了跑车,娶了富...

linux安装jdk,全局配置,不同用户不同jdk

jdk1.8安装包链接:https://pan.baidu.com/s/14qBrh6ZpLK04QS8ogCepwg提取码:09zs上传文件解压tar-zxvfjdk-8u152-linux-...

运维大神教你在linux下安装jdk8_linux安装jdk1.7

1.到官网下载适合自己机器的版本。楼主下载的是jdk-8u66-linux-i586.tar.gzhttp://www.oracle.com/technetwork/java/javase/downl...

window和linux安装JDK1.8_linux 安装jdk1.8.tar

Windows安装JDK1.8的步骤:步骤1:下载JDK打开浏览器,找到JDK下载页面https://d.injdk.cn/download/oraclejdk/8在页面中找到并点击“下载...

最全的linux下安装JavaJDK的教程(图文详解)不会安装你来打我?

默认已经有了linux服务器,且有root账号首先检查一下是否已经安装过java的jdk任意位置输入命令:whichjava像我这个已经安装过了,就会提示在哪个位置,你的肯定是找不到。一般我们在...

取消回复欢迎 发表评论: