小工具      在线工具  汉语词典  css  js  c++  java

3.paimon分区设置及分区自动失效

大数据,大数据 额外说明

收录于:195天前

概述

大数据中分区为加速查询,提供了很好的途径,对于大表,生产中加上分区,并按分区查询,性能提升巨大,分区的字段最好具有平均分布数据的功能,能解决大部分或者一部分查询慢的问题,收益最大; 对于大表的另一个问题,就是数据无限膨胀,但磁盘有限,在paimon中这些问题都有解决方案,就是分区和分区自动失效功能

相关链接

在阅读之前,可以查看链接相关文章

paimon相关文章请 移步

paimon官方文档如何设置分区
paimon官方相关文档分区失效

实战

接下来,会对如何分区(包括动态分区),如何设置分区失效进行测试

注意: 如果定义了主键,分区键必须是主键的子集。这和hudi相比,还是有了些限制,不过影响不大;使用hive catalog,如有问题请移步 至此,看如何整合 hive与paimon

代码

CREATE CATALOG paimon_hive WITH (
‘type’ = ‘paimon’,
‘metastore’ = ‘hive’,
‘uri’ = ‘thrift://10.32.xx.142:9083’,
‘warehouse’ = ‘hdfs:///data/hive/warehouse/paimon/hive’,
‘default-database’=‘test’
);
USE CATALOG paimon_hive;

DROP TABLE IF EXISTS STUDENT2Kafka;
CREATE TEMPORARY TABLE IF NOT EXISTS STUDENT2Kafka (
    `ID` STRING
    ,`NAME` STRING
    ,`AGE` STRING
    ,`BIRTHDAY` TIMESTAMP
    ,PRIMARY KEY ( `ID` ) NOT ENFORCED
) WITH (
  'connector' = 'kafka',
  'topic' = 'STUDENT2',
  'properties.bootstrap.servers' = '10.57.12.18:9092',
  'properties.group.id' = 'STUDENT2_GROUP',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'ogg-json'
);
CREATE TABLE IF NOT EXISTS student2(
    `id`  string
    ,`name` string
    ,`age` string
    ,`birthday` string
    ,dt   string
    ,PRIMARY KEY ( `name`,`id`,`dt` ) NOT ENFORCED )
    PARTITIONED BY (dt) WITH (
    'connector' = 'paimon',
    'metastore.partitioned-table' = 'true',
    'file.format' = 'parquet',
    'write-buffer-size' = '512mb',
    'write-buffer-spillable' = 'true' ,
    'partition.expiration-time' = '1 d',
    'partition.expiration-check-interval' = '1 h',
    'partition.timestamp-formatter' = 'yyyy-MM-dd',
    'partition.timestamp-pattern' = '$dt'
    );

INSERT INTO student2  SELECT 
ID,NAME,AGE,DATE_FORMAT(BIRTHDAY,'yyyy-MM-dd HH:mm:ss'),DATE_FORMAT(BIRTHDAY,'yyyy-MM-dd')
FROM STUDENT2Kafka;

执行效果

上面设置分区及分区失效二合一了,注意分区失效设置时 ‘partition.timestamp-pattern’ = ‘$dt’

在这里插入图片描述
在这里插入图片描述

注意: 分区过期后,它在逻辑上被删除,并且最新的快照无法查询其数据。但是文件系统中的文件不会立即被物理删除,这取决于相应的快照何时过期,也就是说,分区失效要满足上述这些条件,才会真正的删除,测试时,将checkpoint设置短,一个checkpoint就插入一点数据,10条以后,若没有改配置,开始有效果了

结束

分区自动失效这个功能还是很实用的,特别是对于一些表数据增加快的,减少了手动维护,至此,三篇paimon跟着操作一次,对于paimon基本上就入门了
paimon相关文章请 移步

. . .

相关推荐

额外说明

Java注解-最通俗易懂的解释

注解的重要性就不用我来说了,controller层有@controller注解,service层有@service注解,基本上到处都是注解,任何一个Java框架都是通过注解+反射来实现的!所以注解是Java程序员的必备技能,如果你对注解还不是很了解,那么

额外说明

【Python入门教程】第83章 常用字符串方法startswith()和endswith()

本篇我们学习如何使用字符串 startswith() 方法检查一个字符串是否以某个子串开头,以及使用 endswith() 方法检查一个字符串是否以某个子串结束。 字符串 startswith() 方法 startswith() 方法用于检测一个字符串是

额外说明

springBoot2.6.2映射请求原理(源码分析)

文章目录 前言 1.`分析doGet,doPost请求` 二. `查看processRequest方法` 三. `查看doServlet方法` 四.`回过头看看DipatcherServlet类` 五.`分析doDispatch` 六 `查验映射匹配原理

额外说明

kylinOSv10配置IP(静态IP以及动态IP)

需求 以前用的都是CentOS红帽系得Linux系统,修改IP地址都是滚瓜烂熟的命令,但kylinOS虽然也有相同的文件、相同的命令,但配置IP的方式还是不一样(相同操作在麒麟上不生效)。查询了麒麟的管理手册,具体配置IP的方式如下。 麒麟Linux配置

额外说明

YOLOv5论文作图教程(2)— 软件界面布局和基础功能介绍

前言:Hello大家好,我是小哥谈。通过上一节课的学习,相信大家都已成功安装好软件了,本节课就给大家详细介绍一下Axure RP9软件的界面布局及相关基础功能,希望大家学习之后能够有所收获!-   前期回顾:              YOLOv5论文作

额外说明

java数据结构之选择排序

作为java排序算法中的一种经典的排序算法,选择排序的思想还是比较容易理解的,其主要的排序过程为: 每一趟从待排序记录中选出最小元素,顺序放在已排好序的最后,直到全部记录排序完毕。也就是:每一趟在n+1(i=1,2,…n)个记录中选取关键字最小记录作为有

额外说明

【Java 基础篇】Java网络编程实战:P2P文件共享详解

Java网络编程是现代软件开发中不可或缺的一部分,因为它允许不同计算机之间的数据传输和通信。在本篇博客中,我们将深入探讨Java中的P2P文件共享,包括什么是P2P文件共享、如何实现它以及一些相关的重要概念。 什么是P2P文件共享? P2P(Peer-t

额外说明

解决OneCoreUAPCommonProxyStub.dll文件在系统丢失缺失情况

其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库,这时你可以下载这个OneCoreUAPComm

额外说明

wordpress漏洞工具_打击WordPress中的垃圾评论的12个重要提示和工具

WordPress 漏洞工具 Are you getting tired of dealing with comment spam on your WordPress 博客? Well, you are not alone. 您是否厌倦了在WordPre

ads via 小工具