百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 优雅编程 > 正文

PostgreSQL分区表从创建到管理(pgsql 分区)

sinye56 2024-10-21 10:53 9 浏览 0 评论


作者 Iris (PG深度爱好者)

业务背景

近期在支撑应用厂商从Oracle改造到PostgreSQL的改造工作,目前大部分O库业务表已经成功转化为PG表,应用厂商提出关于Oracle分区表迁移到PG分区表的改造方法和思路问题。由于应用业务数据每天产生大几千万数据,需要对每天的数据进行分区存储。业务表需要保留30天数据,30天之前的数据删除。

在原Oracle分区表设计中,以时间范围分区,区域为列表分区来创建混合分区。在分布式MYSQL数据库里可以通过时间范围分片规自动生成分片规则。在PG中分区表是通过表继承来实现的,创建一个空的主表,每个分区表按时间进行创建,去继承主表。

分区表介绍

数据库表分区把一个大的物理表分成若干个小的物理表,并使得这些小物理表在逻辑上可以被当成一张表来使用。


分区术语

· 主表 / 父表 该表是创建子表的模板。可以理解为一个标准模板表,正常情况下它并不储存任何数据。

· 子表 / 分区表 / Child Table / Partition Table 子表继承并属于一个主表。子表中存储所有的数据。主表与分区表属于一对多的关系,一个主表包含多个分区表,而一个分区表只从属于一个主表

分区优势

· 分区后, 单个分区表的索引和表都变小了, 可以保持在内存里面, 适合把热数据从大表拆分出来的场景. ?

· 对于大范围的查询, 大表可以通过索引来避免全表扫描. 但是如果分区了的话, 可以使用分区的全表扫描. 适合经常要做大 范围扫描的场景, 按照范围分区(分区后采用全表扫描), 减少索引带来的随机BLOCK扫描. ?

· 大批量的数据导入或删除, 对于大表来说, 删除大量的数据使用DELETE的话会带来大量的VACUUM操作负担.而使用分 区表的话可以直接DROP分区, 或者脱离子表和父表的继承关系. ?

· 使用分区表,可以把不常用的分区放到便宜的存储上. ?

· 因为每个表只能放在一个表空间上, 表空间和目录对应, 表的大小受到表空间大小的限制. 使用分区表则更加灵活.

本地分区

范围分区:根据字段存储的值取值范围进行分区, 例如日志表的时间字段, 用户表的ID范围等等。

哈希分区:根据字段存储值HASH再做和分区数做比特运算得到一个唯一的分区ID. 或者取模.例如mod(hashtext(name),16), 对16个分区的场景。

list分区:与哈希分区类似, 但是直接使用字段值作为分区条件. 适合KEY值比较少并且比较均匀的场景.例如按性别字段作为分区字段. 那么就分成了2个区。

本地分区,子表继承表自动继承父表的约束, 非空约束. 但是不自动继承的是(uk,pk,fk,索引,存储参数等)。如果需要继承父表约束,需要添加like table_partition including all 参数。例如:CREATE TABLE tab_partition_2020_01_1 (like tab_partition including all) inherits (tab_partition);

创建分区表

创建本地分区表

创建父表

创建主标。限制应用数据1月份的数据插入到2020年1月份分区表中,也可以为主表创建约束条件和唯一键。

CREATE TABLE tab_partition

(

date_key date check(date_key>to_date('2020-01-01 00:00:01','yyyy-mm-dd hh24:mi:ss') and date_key<to_date('2020-01-31 00:00:01','yyyy-mm-dd hh24:mi:ss')),

hour_key smallint,

client_key integer,

item_key integer ,

account integer,

expense numeric);

创建子表

创建多个分区表。每个分区表必须继承自主表,并且正常情况下都不要为这些分区表添加任何新的列。

CREATE TABLE tab_partition_2020_01_01 (like tab_partition including all) inherits (tab_partition);CREATE TABLE tab_partition_2020_01_02 (like tab_partition including all) inherits (tab_partition);CREATE TABLE tab_partition_2020_01_03 (like tab_partition including all) inherits (tab_partition);CREATE TABLE tab_partition_2020_01_04 (like tab_partition including all) inherits (tab_partition);

CREATE TABLE tab_partition_2020_01_05 (like tab_partition including all) inherits (tab_partition);

1、 此建表用在测试,其他建表语句省略,实际在生产中建表需要在程序代码中,通过for循环建表

2、 字表会默认继承父表的约束关系

1. 定义一个trigger或者rule把对主表的数据插入操作重定向到对应的分区表。

CREATE OR REPLACE FUNCTION tab_partition_partition_trigger()RETURNS TRIGGER AS $BEGIN

IF NEW.date_key = DATE '2020-01-01' THEN INSERT INTO tab_partition_2020_01_01 VALUES (NEW.*); ELSIF NEW.date_key = DATE '2020-01-11' THEN INSERT INTO tab_partition_2020_01_02 VALUES (NEW.*); ELSIF NEW.date_key = DATE '2020-01-02' THEN INSERT INTO tab_partition_2020_01_03 VALUES (NEW.*); ELSIF NEW.date_key = DATE '2020-01-03' THEN INSERT INTO tab_partition_2020_01_04 VALUES (NEW.*); ELSIF NEW.date_key = DATE '2020-01-04' THEN INSERT INTO tab_partition_2020_01_05 VALUES (NEW.*); END IF; RETURN NULL;END;$LANGUAGE plpgsql;

--挂载分区TriggerCREATE TRIGGER insert_tab_partition_partition_triggerBEFORE INSERT ON tab_partitionFOR EACH ROW EXECUTE PROCEDURE tab_partition_partition_trigger();

2. 确保postgresql.conf中的配置项没有被disable。这一点非常重要,如果该参数项被disable,则基于分区表的查询性能无法得到优化,甚至比不使用分区表直接使用索引性能更低。

查询优化

当constraint_exclusion为on或者partition时,查询计划器会根据分区表的检查限制将对主表的查询限制在符合检查限制条件的分区表上,直接避免了对不符合条件的分区表的扫描。  为了验证分区表的优势,这里创建一个与上文创建的tab_partition结构一样的表tab_partition_all,并为其date_key创建索引,向tab_partition和tab_partition_all中插入同样的3亿条数据(数据的时间跨度为2020-01-01到2020-01-30)。

CREATE TABLE tab_partition_all

(

date_key date ,

hour_key smallint,

client_key integer,

item_key integer,

account integer,

expense numeric

);

插入随机测试数据到tab_partition_all

INSERT INTO tab_partition_allselect (select array_agg(i::date) from generate_series( '2020-1-01'::date, '2020-1-30'::date, '1 day'::interval) as t(i) )[floor(random()*4)+1] as date_key, floor(random()*24) as hour_key, floor(random()*1000000)+1 as client_key, floor(random()*100000)+1 as item_key, floor(random()*20)+1 as account, floor(random()*10000)+1 as expensefrom generate_series(1, 300000000,1);

插入同样的测试数据到tab_partition

INSERT INTO

tab_partition

select

(select

array_agg(i::date)

from

generate_series(

'2020-01-01'::date,

'2020-01-30'::date,

'1 day'::interval) as t(i)

)[floor(random()*4)+1] as date_key,

floor(random()*24) as hour_key,

floor(random()*1000000)+1 as client_key,

floor(random()*100000)+1 as item_key,

floor(random()*20)+1 as account,

floor(random()*10000)+1 as expense

from

generate_series(1, 300000000,1);

在tab_partition和tab_partition_all上执行同样的query,查询2020-1-1日的数据量。

\timing

explain analyze select * from tab_partition where date_key=date '2020-01-01';


\timing

explain analyze select * from tab_partition_all where date_key=date '2020-01-01';

  由上可见,使用分区表时,所需时间为17.9秒,而不使用分区表时,耗时40.6秒。  使用分区表,PostgreSQL跳过了除2020-01-01区表以外的分区表,只扫描2020-01-01分区表。而不使用分区表只使用索引时,数据库要使用索引扫描整个数据库。另一方面,使用分区表时,每个表的索引是独立的,即每个分区表的索引都只针对一个小的分区表。而不使用分区表时,索引是建立在整个大表上的。数据量越大,索引的速度相对越慢。

创建RANGE分区

创建RANGE分区父表

create table tmp_par_range (

id int8,

random_char varchar(100),

day_id varchar(8)

) partition by RANGE(day_id);


创建RANGE分区子表

CREATE TABLE tmp_par_range_p20171130_b PARTITION OF tmp_par_range FOR VALUES FROM (MINVALUE) TO ('20171130');

CREATE TABLE tmp_par_range_p20171201 PARTITION OF tmp_par_range FOR VALUES FROM ('20171130') TO ('20171201');

CREATE TABLE tmp_par_range_p20171202 PARTITION OF tmp_par_range FOR VALUES FROM ('20171201') TO ('20171202');

CREATE TABLE tmp_par_range_p20171203 PARTITION OF tmp_par_range FOR VALUES FROM ('20171202') TO ('20171203');

CREATE TABLE tmp_par_range_p20171203_a PARTITION OF tmp_par_range FOR VALUES FROM ('20171203') TO (MAXVALUE);


创建HASH分区

创建HASH分区父表

CREATE TABLE tab_par_hash( stuname text , ctime timestamp(6) without time zone) PARTITION BY HASH(stuname);


创建索引

CREATE INDEX idx_par_stuname on tab_par_hash using btree(stuname);

创建HASH分区子表

CREATE TABLE tab_par_hash_p1 PARTITION OF tab_par_hash FOR VALUES WITH(MODULUS 4, REMAINDER 0);CREATE TABLE tab_par_hash_p2 PARTITION OF tab_par_hash FOR VALUES WITH(MODULUS 4, REMAINDER 1);CREATE TABLE tab_par_hash_p3 PARTITION OF tab_par_hash FOR VALUES WITH(MODULUS 4, REMAINDER 2);CREATE TABLE tab_par_hash_p4 PARTITION OF tab_par_hash FOR VALUES WITH(MODULUS 4, REMAINDER 3);


创建LIST分区表

创建LIST分区父表

create table tmp_par_list (

id int8,

random_char varchar(100),

day_id varchar(8)

) partition by list(day_id);

创建LIST分区子表

CREATE TABLE tmp_par_list_p20171130 PARTITION OF tmp_par_list FOR VALUES in ('20171130');

CREATE TABLE tmp_par_list_p20171201 PARTITION OF tmp_par_list FOR VALUES in ('20171201');

CREATE TABLE tmp_par_list_p20171202 PARTITION OF tmp_par_list FOR VALUES in ('20171202');

CREATE TABLE tmp_par_list_p20171203 PARTITION OF tmp_par_list FOR VALUES in ('20171203');


管理分区

  从上文分区表的创建过程可以看出,分区表必须在相关数据插入之前创建好。在生产环境中,很难保证所需的分区表都已经被提前创建好。同时为了不让分区表过多,影响数据库性能,不能创建过多无用的分区表。

周期性创建分区表

  在生产环境中,经常需要周期性删除和创建一些分区表。一个经典的做法是使用定时任务。比如使用cronjob每天运行一次,将1年前的分区表删除,并创建第二天分区表(该表按天分区)。有时为了容错,会将之后一周的分区表全部创建出来。

动态创建分区表

上述周期性创建分区表的方法在绝大部分情况下有效,但也只能在一定程度上容错。另外,上文所使用的分区函数,使用IF语句对date_key进行判断,需要为每一个分区表准备一个IF语句。  如插入date_key分别为2020-01-1到2020-01-5的6条记录,前面5条均可插入成功,因为相应的分区表已经存在,但最后一条数据因为相应的分区表不存在而插入失败。

INSERT INTO tab_partition(date_key) VALUES ('2020-01-01');INSERT 0 0INSERT INTO tab_partition(date_key) VALUES ('2020-01-02');INSERT 0 0INSERT INTO tab_partition(date_key) VALUES ('2020-01-03');INSERT 0 0INSERT INTO tab_partition(date_key) VALUES ('2020-01-04');INSERT 0 0INSERT INTO tab_partition(date_key) VALUES ('2020-01-05');

INSERT 0 0

INSERT INTO tab_partition(date_key) VALUES ('2020-01-06');ERROR: relation "tab_partition_2020_01_06" does not existLINE 1: INSERT INTO tab_partition_2020_01_06 VALUES (NEW.*) ^QUERY: INSERT INTO tab_partition_2020_01_06 VALUES (NEW.*)CONTEXT: PL/pgSQL function tab_partition_partition_trigger() line 17 at SQL statement

SELECT * FROM tab_partition;

date_key | hour_key | client_key | item_key | account | expense

------------+----------+------------+----------+---------+---------

2020-01-1 | | | | |

2020-01-2 | | | | |

2020-01-3 | | | | |

2020-01-4 | | | | |

2020-01-5 | | | | |

(5 rows)

针对该问题,可使用动态SQL的方式进行数据路由,并通过获取将数据插入不存在的分区表产生的异常消息并动态创建分区表的方式保证分区表的可用性。

CREATE OR REPLACE FUNCTION tab_partition_partition_trigger()RETURNS TRIGGER AS $DECLARE date_text TEXT;DECLARE insert_statement TEXT;BEGIN SELECT to_char(NEW.date_key, 'YYYY_MM_DD') INTO date_text; insert_statement := 'INSERT INTO tab_partition_' || date_text ||' VALUES ($1.*)'; EXECUTE insert_statement USING NEW; RETURN NULL; EXCEPTION WHEN UNDEFINED_TABLE THEN EXECUTE 'CREATE TABLE IF NOT EXISTS tab_partition_' || date_text || '(CHECK (date_key = ''' || date_text || ''')) INHERITS (tab_partition)'; RAISE NOTICE 'CREATE NON-EXISTANT TABLE tab_partition_%', date_text; EXECUTE 'CREATE INDEX tab_partition_date_key_' || date_text || ' ON tab_partition_' || date_text || '(date_key)'; EXECUTE insert_statement USING NEW; RETURN NULL;END;$LANGUAGE plpgsql;

使用该方法后,再次插入date_key为2020-01-5的记录时,对应的分区表不存在,但会被自动创建。

INSERT INTO tab_partition VALUES('2020-01-4'),('2020-01-5'),('2020-01-6');NOTICE: CREATE NON-EXISTANT TABLE tab_partition_2020_01_4NOTICE: CREATE NON-EXISTANT TABLE tab_partition_2020_01_5INSERT 0 0SELECT * FROM tab_partition; date_key | hour_key | client_key | item_key | account | expense------------+----------+------------+----------+---------+--------- 2020-01-1 | | | | | 2020-01-2 | | | | | 2020-01-3 | | | | | 2020-01-4 | | | | | 2020-01-5 | | | | | 2020-01-6 | | | | |(6 rows)

移除分区表

虽然如上文所述,分区表的使用可以跳过扫描不必要的分区表从而提高查询速度。但由于服务器磁盘的限制,不可能无限制存储所有数据,经常需要周期性删除过期数据,如删除5年前的数据。如果使用传统的DELETE,删除速度慢,并且由于DELETE只是将相应数据标记为删除状态,不会将数据从磁盘删除,需要使用VACUUM释放磁盘,从而引入额外负载。  而在使用分区表的条件下,可以通过直接DROP过期分区表的方式快速方便地移除过期数据。如DROP TABLE tab_partition_2019_12_15;

另外,无论使用DELETE还是DROP,都会将数据完全删除,即使有需要也无法再次使用。因此还有另外一种方式,即更改过期的分区表,解除其与主表的继承关系,如。

ALTER TABLE tab_partition_2019_12_15 NO INHERIT tab_partition;

但该方法并未释放磁盘。此时可通过更改该分区表,使其属于其它,同时将该TABLESPACE的目录设置为其它磁盘分区上的目录,从而释放主表所在的磁盘。同时,如果之后还需要再次使用该"过期"数据,只需更改该分区表,使其再次与主表形成继承关系。

如果要完全删除全部的分区表,只需要drop 分表加cascade。

注意, 本地字段不能从主表删除, 但是继承字段随着主表删除该字段而自动删除. ? digoal=# alter table p drop column username; ? c1, c2, c3, c4, c5的username字段能不能自动删除, 完全取决于它对应的系统表pg_attribute.attislocal的值. False则可以字段删除. 否则不会自 动删除.

? 这些特点维护时必须加以注意. ? 正规的创建继承表应该使用这种方式 ? digoal=# create table c7() inherits(p); -- 这种方式不会自动创建与主表类似的索引 ? 或者用这种方式 ? digoal=# create table c7(like p including all) inherits(p); -- 现在的子表字段是被创建为本地字段的. ? digoal=# update pg_attribute set attislocal=false where attrelid='c7'::regclass and attnum>=0; -- 使用这个方法可以把他们更新为继承字段. ? digoal=# select attname,attislocal from pg_attribute where attrelid='c7'::regclass; ? attname | attislocal ? …… ? ctid | t ? id | f ? info | f ? crt_time | f ? (9 rows)

PostgreSQL

分区缺陷

目前PostgreSQL分区表实施方法的存在的缺陷 ?

· 性能缺陷:目前PostgreSQL不管是使用约束还是触发器来实现范围缩小到分区表的情况, 性能都不是非常的理想, 会损耗一些 CPU运算.

· 全局约束缺陷:数据分布到多个子表后, 就无法简单的实现全局唯一了. 除非约束字段是是分布列. ?

· 全局外键关联缺陷:全局外键也没有办法实现. 例如create table test (id int references p (id)), 如果p是主表的话, 是只能外键约束到主表 本身的, 无法延续到子表.

分区总结

· 如果要充分使用分区表的查询优势,必须使用分区时的字段作为过滤条件

· 分区字段被用作过滤条件时,WHERE语句只能包含常量而不能使用参数化的表达式,因为这些表达式只有在运行时才能确定其值,而planner在真正执行query之前无法判定哪些分区表应该被使用

· 跳过不符合条件分区表是通过planner根据分区表的检查限制条件实现的,而非通过索引

· 必须将constraint_exclusion设置为ON或Partition,否则planner将无法正常跳过不符合条件的分区表,也即无法发挥表分区的优势

· 除了在查询上的优势,分区表的使用,也可提高删除旧数据的性能

· 为了充分利用分区表的优势,应该保证各分区表的检查限制条件互斥,但目前并无自动化的方式来保证这一点。因此使用代码造化创建或者修改分区表比手工操作更安全

· 在更新数据集时,如果使得partition key column(s)变化到需要使某些数据移动到其它分区,则该更新操作会因为检查限制的存在而失败。如果一定要处理这种情景,可以使用更新Trigger,但这会使得结构变得复杂。

· 大量的分区表会极大地增加查询计划时间。表分区在多达几百个分区表时能很好地发挥优势,但不要使用多达几千个分区表。

相关推荐

程序员:JDK的安装与配置(完整版)_jdk的安装方法

对于Java程序员来说,jdk是必不陌生的一个词。但怎么安装配置jdk,对新手来说确实头疼的一件事情。我这里以jdk10为例,详细的说明讲解了jdk的安装和配置,如果有不明白的小伙伴可以评论区留言哦下...

Linux中安装jdk并配置环境变量_linux jdk安装教程及环境变量配置

一、通过连接工具登录到Linux(我这里使用的Centos7.6版本)服务器连接工具有很多我就不一一介绍了今天使用比较常用的XShell工具登录成功如下:二、上传jdk安装包到Linux服务器jdk...

麒麟系统安装JAVA JDK教程_麒麟系统配置jdk

检查检查系统是否自带java在麒麟系统桌面空白处,右键“在终端打开”,打开shell对话框输入:java–version查看是否自带java及版本如图所示,系统自带OpenJDK,要先卸载自带JDK...

学习笔记-Linux JDK - 安装&amp;配置

前提条件#检查是否存在JDKrpm-qa|grepjava#删除现存JDKyum-yremovejava*安装OracleJDK不分系统#进入安装文件目...

Linux新手入门系列:Linux下jdk安装配置

本系列文章是把作者刚接触和学习Linux时候的实操记录分享出来,内容主要包括Linux入门的一些理论概念知识、Web程序、mysql数据库的简单安装部署,希望能够帮到一些初学者,少走一些弯路。注意:L...

测试员必备:Linux下安装JDK 1.8你必须知道的那些事

1.简介在Oracle收购Sun后,Java的一系列产品就被整合到Oracle官网中,打开官网乍眼一看也不知道去哪里下载,还得一个一个的摸索尝试,而且网上大多数都是一些Oracle收购Sun前,或者就...

Linux 下安装JDK17_linux 安装jdk1.8 yum

一、安装环境操作系统:JDK版本:17二、安装步骤第一步:下载安装包下载Linux环境下的jdk1.8,请去官网(https://www.oracle.com/java/technologies/do...

在Ubuntu系统中安装JDK 17并配置环境变量教程

在Ubuntu系统上安装JDK17并配置环境变量是Java开发环境搭建的重要步骤。JDK17是Oracle提供的长期支持版本,广泛用于开发Java应用程序。以下是详细的步骤,帮助你在Ubuntu系...

如何在 Linux 上安装 Java_linux安装java的步骤

在桌面上拥抱Java应用程序,然后在所有桌面上运行它们。--SethKenlon(作者)无论你运行的是哪种操作系统,通常都有几种安装应用程序的方法。有时你可能会在应用程序商店中找到一个应用程序...

Windows和Linux环境下的JDK安装教程

JavaDevelopmentKit(简称JDK),是Java开发的核心工具包,提供了Java应用程序的编译、运行和开发所需的各类工具和类库。它包括了JRE(JavaRuntimeEnviro...

linux安装jdk_linux安装jdk软连接

JDK是啥就不用多介绍了哈,外行的人也不会进来看我的博文。依然记得读大学那会,第一次实验课就是在机房安装jdk,编写HelloWorld程序。时光飞逝啊,一下过了十多年了,挣了不少钱,买了跑车,娶了富...

linux安装jdk,全局配置,不同用户不同jdk

jdk1.8安装包链接:https://pan.baidu.com/s/14qBrh6ZpLK04QS8ogCepwg提取码:09zs上传文件解压tar-zxvfjdk-8u152-linux-...

运维大神教你在linux下安装jdk8_linux安装jdk1.7

1.到官网下载适合自己机器的版本。楼主下载的是jdk-8u66-linux-i586.tar.gzhttp://www.oracle.com/technetwork/java/javase/downl...

window和linux安装JDK1.8_linux 安装jdk1.8.tar

Windows安装JDK1.8的步骤:步骤1:下载JDK打开浏览器,找到JDK下载页面https://d.injdk.cn/download/oraclejdk/8在页面中找到并点击“下载...

最全的linux下安装JavaJDK的教程(图文详解)不会安装你来打我?

默认已经有了linux服务器,且有root账号首先检查一下是否已经安装过java的jdk任意位置输入命令:whichjava像我这个已经安装过了,就会提示在哪个位置,你的肯定是找不到。一般我们在...

取消回复欢迎 发表评论: