第二章 Apache Iceberg概述和源代码的框架

发布时间:2025/10/03 12:17 来源:雨花台家居装修网

层：

Metadata FileSnapshotManifest

Metadata File存储设备理论上是迟至版的元文档文档（所有snapshot文档）；Snapshot备注示理论上是转换的一个null，每次commit都才会填充一个null，一个null中所值得注意多个Manifest。每个Manifest中所记录了理论上是转换填充文档所相异的文档定址，也就是data files的定址。基于snapshot的监管方式也，Iceberg能够透过time travel（上曾迟至版习取以及理论上是习取），并且透过了serializable isolation。文档存储设备层拥护多种不同的文档PDF，现有拥护Parquet、ORC、AVRO。

1.5 Iceberg的重要特开放性

Apache Iceberg所设计初衷是为了解决Hive离线数仓计算出来迟的难题，经过多年迭代之前发展成为借助于文档湖区服务于的备注PDF标交。关于Apache Iceberg的不够多引介，请参见Apache IcebergTwitter。

现有Iceberg透过下述核心灵活性：

1.5.1 丰富的计算出来汽缸出众的API抽象使之不初始化特定汽缸，现有在拥护的有Spark、Flink、Presto、Hive；Iceberg透过了Java native API，不须特定汽缸也可以采访Iceberg备注。1.5.2 灵活的文档许多组织形式透过了基于因特网的理论上是计算出来模改型和基于批处理过程的全量备注计算出来模改型，批侦查和流侦查可以使用相同的存储设备模改型（HDFS、OZONE），文档不于是又孤立，以借助于低效率的轻量级文档湖区存储设备服务于；Iceberg拥护黑影中所区（Hidden Partitioning）和中所区的所设计变不够（Partition Evolution），方便业务透过文档中所区策略不够换；拥护Parquet、ORC、Avro等存储设备PDF。1.5.3 优化文档入湖区流程Iceberg透过ACID政府部门灵活性，中下游文档写就入即可见，不受到影响理论上是文档处理过程侦查，这这两项了ETL；Iceberg透过upsert/merge into行分级文档变不够，可以前所未有地变小文档分批延迟。1.5.4 理论上是习取处理过程灵活性Iceberg拥护通过因特网方式也习取理论上是文档，借助于主流开源计算出来汽缸入湖区和分析布景的完善再入；Spark struct streaming拥护；Flink table source拥护；拥护上曾迟至版重构。1.6 文档文档本体

我们先了解一下Iceberg在文档系统中所的的所设计，总体来讲Iceberg可分两大多文档，第一大多是文档文档，如下绘出中所的 parquet 文档。第二大多是备注元文档文档（Metadata 文档），值得注意 Snapshot 文档（snap-*.avro）、Manifest 文档(*.avro)、TableMetadata 文档(*.json)等。

1.6.1 元文档文档

其中所metadata数据库放置元文档监管层的文档，备注的元文档是不作修订的，并且自始至终向前迭代；理论上是的null可以回退。

1.6.1.1 Table Metadata

version[number].metadata.json：存储设备每个迟至版的文档不够改项。

1.6.1.2 null（SnapShot）

snap-[snapshotID]-[attemptID]-[commitUUID].avro：存储设备nullsnapshot文档;

null代备注一张Iceberg备注在某一当下的状态。也被称为详细文档加备注（Manifest List），；还有存储设备的是详细文档文档加备注，每个详细文档文档占用悄悄文档。详细文档加备注文档以snap开头，以avro前缀片尾，每次不够换都诱发一个详细文档加备注文档。每行中所存储设备了详细文档文档的切线。

详细文档文档；还有存储设备文档文档的中所区范围、减少了几个文档文档、删除了几个文档文档等文档。文档文档（Data Files）存储设备在多种不同的Manifest Files；还有，Manifest Files存储设备在一个Manifest List文档；还有，而一个Manifest List文档代备注一个null。

1.6.1.3 详细文档文档（Manifest File）

[commitUUID]-[attemptID]-[manifestCount].avro：manifest文档

详细文档文档是以avroPDF透过存储设备的，以avro前缀片尾，每次不够换转换都才会诱发多个详细文档文档。其；还有加出了组成某个null（snapshot）的文档文档加备注。每行都是每个文档文档的描述，包内括文档文档的状态、文档切线、中所区文档、加分级的粗略估计文档（比如每加的最大最小值、空值数等）、文档的大小以及文档；还有文档的行数等文档。其中所加分级的粗略估计文档在 Scan 的时候可以为行列式下推透过文档，以便可以去除掉不必要的文档。

1.6.2 文档文档

data数据库许多组织形式值得注意hive，都是以中所区透过数据库许多组织（绘出中所dt为中所区加）

Iceberg的文档文档不一定放置在data数据库下。一共有三种存储设备PDF（Avro、Orc和Parquet），主要是看您同样哪种存储设备PDF，前缀分别相异avro、orc或者parquet。在一个数据库，不一定才会诱发多个文档文档。

二 Apache Iceberg的借助于具体内容2.1 null所设计方式也2.1.1 null可避免习转换数适用理论上是已填充null；写就转换才会填充在此于是又次可避免null，并在写就进行后粒子开放性呈交。

如下绘出请注意，真线框（snapshot-1）备注示正在透过写就转换，但是还不会发生commit转换，这时候snapshot-1是不作习的，其他用户勉强习取之前commit于是又次的snapshot。理论上是，snapshot-2，snapshot-3备注示之前可习。

可以拥护比方说习，例如可以同时习取S1、S2、S3的null文档，同时，可以追述snapshot-2或者snapshot-3。在snapshot-4 commit进行于是又次，这时候snapshot-4之前换成实线，就可以习取文档了。

例如，现在current Snapshot的常量移到S3，其他用户对一张备注的习转换，都是习current Snapshot常量所抛出的Snapshot，但不才会受到影响前面的Snapshot的习转换。

当一切交备好完毕于是又次，才会以粒子转换的方式也Commit这个Metadata文档，这样一次Iceberg的文档写就入就进行了。随着每次的写就入，Iceberg就填充了下绘出这样的一个文档许多组织方式也而。

2.1.2 理论上是习取文档

Iceberg的每个snapshot都值得注意前一个snapshot的所有文档，每次都相当于全量习取文档，对于整个信令来说是，习取文档的代价是非常很低的。

如果我们只想习取理论上是当下的理论上是文档，就可以根据Iceberg中所Snapshot的重构系统来借助于，数习取Snapshot1到Snapshot2的理论上是文档，也就是下绘出中所的深蓝色文档大多。

理论上是，S3也可以只习取红色大多的理论上是文档，也可以习取S1-S3的理论上是文档。

Iceberg拥护习写就裂解，理论上是可以拥护比方说习和理论上是习。

2.1.3 粒子开放性转换

对于文档加备注的所有修订都是粒子转换。

在中所区中所追加文档；重组或是重写就中所区。 Iceberg是以文档为薄板呈交政府部门的，所以就不会作法毕竟以秒为该单位呈交政府部门，否则才会致使文档文档量增大。比如Flink是以CheckPoint为写就入该单位，科学文档在写就入Iceberg于是又次并必须被必要转发，只有当出现异常了CheckPoint时则才会写就metadata，这时文档才才会由不作见换成可见。而每次CheckPoint可执行也能够一定的时长。2.2 政府部门开放性呈交2.2.1 写就转换要求记录理论上是元文档的迟至版---base version；创建在此于是又次元文档以及manifest文档；粒子开放性的将base version 更换为在此于是又次迟至版。

粒子开放性更换保证了线开放性的上曾；

粒子开放性更换能够依靠下述转换来保证。

2.2.2 争端解决---明朗锁断言理论上是不会其他的写就转换；遇上争端则基于理论上是最在此于是又次元文档透过重试；元文档监管器所透过的灵活性；HDFS或是本地文档系统所透过的粒子化的rename灵活性。三 Iceberg混合Flink布景社交3.1 借助于近百同步Data Pipeline

Iceberg可以毕竟分钟分级的交同步文档拉取。

首先，Flink+Iceberg最经典的一个布景就是借助于同步的Data Pipeline。业务前端诱发的大量日志文档，被导入到kafka这样的立即队加。运用Flink流计算出来汽缸可执行ETL后，导入到Apache Iceberg原始备注中所。有一些业务布景能够必要跑分析调度来分析原始备注的文档，而另外一些业务能够对文档想到促使的提纯。那么我们可以于是又新起一个Flink调度从Apache Iceberg备注中所购物理论上是文档，经过处理过程于是又次写就入到提纯于是又次的Iceberg备注中所。此时，可能还有业务能够对文档想到促使的肽键，那么我们独自在Iceberg备注上出现异常理论上是Flink调度，将肽键于是又次的文档结果写就入到肽键备注中所。

有人才会想，这个布景好像通过Flink+Hive也能借助于。 Flink+Hive的确可以借助于，但写就入到Hive的文档不够多地是为了借助于数仓的文档分析，而不是为了想到理论上是拉取。一般来说是，Hive的理论上是写就入以Partition为该单位，时长是15min以上，Flink长期短时长地写就入才会致使Partition增大。而Iceberg可不借助于1分钟甚至30秒的理论上是写就入，这样就可以大大提很低了前端到前端文档的同步开放性，上层的分析调度可以看得见不够在此于是又次文档，中游的理论上是调度可以习取到不够在此于是又次文档。

3.2 CDC文档同步口服摄出

FlinkCDC理论上是文档写就入Iceberg。

拥护交同步的文档入湖区和文档分析。计算出来汽缸原生拥护CDC，不用移除额外的模组。采用并存的文档湖区存储设备方案，并拥护多种文档分析汽缸。拥护理论上是文档习取。

可以用Flink+Iceberg来分析来自MySQL等关系改型文档库的binlog等。一方面，Apache Flink之前原生地拥护CDC文档解析，一条binlog文档通过ververica flink-cdc-connector拉取于是又次，自动转成Flink Runtime能辨识的INSERT、DELETE、UPDATE_BEFORE、UPDATE_AFTER四种立即，供人其他用户想到促使的同步计算出来。

此外，CDC文档最终入湖区Iceberg于是又次，我们还才会开辟类似的计算出来汽缸，例如Presto、Spark、Hive等，他们都可以同步地习取到Iceberg备注中所的同类型文档。

3.3 从Iceberg上曾文档出现异常Flink侦查

纸片的管理模式是采用Iceberg全量文档和Kafka的理论上是文档来特别设计在此于是又次Flink调度。如果能够过去很长时长例如一年的文档，可以采用类似的Lambda管理模式，离线信令通过kafka->flink->iceberg同步写就入到文档湖区，由于Kafka效率较很低，保留最近百7天文档即可，Iceberg存储设备效率低，可以存储设备全量的上曾文档，出现异常新Flink调度的时候，勉强够去拉Iceberg的文档，跑于是又次平滑地对收到kafka文档即可。

3.4 通过Iceberg文档来修订同步肽键结果

值得注意是在Lambda管理模式下，同步信令由于事件遗留下或者到达依次的难题，可能引致流计算出来前端结果不一定仅仅交确，这时候一般都能够全量的上曾文档来订正同步计算出来的结果。而我们的Iceberg可以很好地代替这个片中，因为它可以很低开放性价比地监管好上曾文档。

四 Iceberg0.11.1源字符串重写4.1 重写Iceberg

借助于Iceberg能够Grade5.6和Java8的周围环境。

4.1.1 浏览Iceberg0.11.1发行版内

浏览定址：

4.1.2 载入Iceberg0.11.1发行版内[bigdata@bigdata185 software]$ tar -zxvf iceberg-apache-iceberg-0.11.1.tar.gz -C /opt/module/[bigdata@bigdata185 software]$ cd /opt/module/iceberg-apache-iceberg-0.11.1/4.1.3 修订相异的迟至版

我们同样最稳固的迟至版透过重写，hadoop2.7.7+Hive2.3.9+Flink1.11.6+Spark3.0.3

org.apache.flink:* = 1.11.6org.apache.hadoop:* = 2.7.7org.apache.hive:hive-metastore = 2.3.9org.apache.hive:hive-serde = 2.3.9org.apache.spark:spark-hive_2.12 = 3.0.34.1.4 校对build.gradle文档，移除国内源

（1）在buildscript的repositories中所移除

maven { url '' }

移除后如下请注意：

buildscript { repositories { jcenter() gradlePluginPortal() maven { url '' } } dependencies { classpath 'com.github.jengelman.gradle.plugins:shadow:5.0.0' classpath 'com.palantir.baseline:gradle-baseline-java:3.36.2' classpath 'com.palantir.gradle.gitversion:gradle-git-version:0.12.3' classpath 'com.diffplug.spotless:spotless-plugin-gradle:3.14.0' classpath 'gradle.plugin.org.inferred:gradle-processors:2.1.0' classpath 'me.champeau.gradle:jmh-gradle-plugin:0.4.8' }}

（2）allprojects中所移除

maven { url '' }

移除后如下请注意

allprojects { group = "org.apache.iceberg" version = getProjectVersion() repositories { maven { url '' } mavenCentral() mavenLocal() }}4.1.5 浏览依赖（可选）

转回单项根数据库，可执行脚本：

[bigdata@bigdata185 iceberg-apache-iceberg-0.11.1]$ ./gradlew dependencies 4.1.6 迟至重写

（1）转回单项根数据库，可执行：

[bigdata@bigdata185 iceberg-apache-iceberg-0.11.1]$ ./gradlew build

（2）上述指示才会可执行字符串里的程式所设计，如果必须够，则可执行下述指示：

[bigdata@bigdata185 iceberg-apache-iceberg-0.11.1]$ ./gradlew build -x test -x scalaStyle 4.1.7 填充的数据库 4.2 Iceberg周围环境部署

在后面的前言中所，我们分别引介如何Iceberg0.11.1和Flink1.11.6、Spark3.0.3和Hive2.3.9集成。

五总结文档湖区的提供商-Iceberg引介。Apache Iceberg的电子技术借助于具体内容。Iceberg混合Flink布景社交。Iceberg0.11.1源码重写。。

脉管炎
泌尿内科
中风护理
长新冠
大便失禁

上一篇：喝了这么多年，你告诉为什么饮料瓶是圆的？牛奶盒是方的？

下一篇：因为这玩意不少90后也被“成年人防沉迷”了