Apache XTable™（孵化中）

Apache XTable™（孵化中）是一个跨表格式转换器，可促进数据处理系统和查询引擎之间的全方位互操作性。目前，Apache XTable™ 支持广泛采用的开源表格式，如 Apache Hudi、Apache Iceberg 和 Delta Lake。

Apache XTable™ 通过利用通用的表示模型简化了数据湖操作。这使用户能够以一种格式写入数据，同时仍然受益于其他格式中可用的集成和功能。例如，Apache XTable™ 使现有的 Hudi 用户能够无缝地使用 Databricks 的 Photon 引擎或使用 Snowflake 查询 Iceberg 表。从一种格式转换到另一种格式很简单，只需实现几个接口，我们相信这将促进未来支持的源格式和目标格式的扩展。

构建项目和运行测试

使用 Java 11 构建项目。如果您使用的是其他 Java 版本，可以使用 jenv 在本地使用多个 Java 版本。
使用 mvn clean package 构建项目。使用 mvn clean package -DskipTests 可在构建时跳过测试。
使用 mvn clean test 或 mvn test 运行所有单元测试。如果您只需要运行特定的测试，可以使用类似 mvn test -Dtest=TestDeltaSync -pl xtable-core 的命令。
同样，使用 mvn clean verify 或 mvn verify 运行集成测试。

代码风格指南

我们使用 Maven Spotless 插件和 Google Java 格式来规范代码风格。
使用 mvn spotless:check 查找代码风格违规，使用 mvn spotless:apply 修复它们。代码风格检查默认与编译阶段绑定，因此代码风格违规会导致构建失败。

运行打包好的 jar 文件

获取预构建的打包 jar 文件或使用 mvn install -DskipTests 创建 jar 文件
创建一个符合以下格式的 yaml 文件：

sourceFormat: HUDI
targetFormats:
  - DELTA
  - ICEBERG
datasets:
  -
    tableBasePath: s3://tpc-ds-datasets/1GB/hudi/call_center
    tableDataPath: s3://tpc-ds-datasets/1GB/hudi/call_center/data
    tableName: call_center
    namespace: my.db
  -
    tableBasePath: s3://tpc-ds-datasets/1GB/hudi/catalog_sales
    tableName: catalog_sales
    partitionSpec: cs_sold_date_sk:VALUE
  -
    tableBasePath: s3://hudi/multi-partition-dataset
    tableName: multi_partition_dataset
    partitionSpec: time_millis:DAY:yyyy-MM-dd,type:VALUE
  -
    tableBasePath: abfs://container@storage.dfs.core.windows.net/multi-partition-dataset
    tableName: multi_partition_dataset

sourceFormat 是你想要转换的源表格式
targetFormats 是你想从源表创建的格式列表
tableBasePath 是表的基础路径
tableDataPath 是一个可选字段，指定数据文件的路径。如果未指定，将使用 tableBasePath。对于 Iceberg 源表，你需要指定 /data 路径。
namespace 是一个可选字段，指定表的命名空间，在同步到目录时使用。
partitionSpec 是一个允许我们推断分区值的规范。这仅适用于 Hudi 源表。如果表未分区，请留空。如果已分区，你可以指定一个以逗号分隔的列表，格式为 路径:类型:格式
- 路径 是指向分区字段的点分隔路径
- 类型 描述了如何从列值生成分区值
  - VALUE：字段值到分区值的恒等转换
  - YEAR：数据按表示日期的字段分区，使用年份粒度
  - MONTH：与 YEAR 相同，但使用月份粒度
  - DAY：与 YEAR 相同，但使用天粒度
  - HOUR：与 YEAR 相同，但使用小时粒度
- 格式：如果你的分区类型是 YEAR、MONTH、DAY 或 HOUR，请指定日期字符串在文件路径中出现的格式

表格式转换器的默认实现可以通过指定以下格式的转换器配置 yaml 文件来替换为自定义实现：

# conversionSourceProviderClass：表格式转换器工厂的类名，用于从该格式的表中读取。所有用户配置，
#     包括 hadoop 配置和转换器特定配置，都将可用于工厂实例化转换器。
# conversionTargetProviderClass：表格式转换器工厂的类名，用于写入该格式的表。
# configuration：特定于此转换器的配置值映射。
tableFormatConverters:
    HUDI:
      conversionSourceProviderClass: org.apache.xtable.hudi.HudiConversionSourceProvider
    DELTA:
      conversionTargetProviderClass: org.apache.xtable.delta.DeltaConversionTarget
      configuration:
        spark.master: local[2]
        spark.app.name: xtable

读取和更新 Iceberg 表时可以使用目录。可以在 yaml 文件中指定目录，并通过 --icebergCatalogConfig 选项传入。目录配置文件的格式如下：

catalogImpl: io.my.CatalogImpl
catalogName: name
catalogOptions: # 所有其他选项都通过映射传递
  key1: value1
  key2: value2

使用以下命令运行：java -jar xtable-utilities/target/xtable-utilities-0.1.0-SNAPSHOT-bundled.jar --datasetConfig my_config.yaml [--hadoopConfig hdfs-site.xml] [--convertersConfig converters.yaml] [--icebergCatalogConfig catalog.yaml] 打包的 jar 文件包含 AWS、Azure 和 GCP 的 Hadoop 依赖项。配置转换器的示例 Hadoop 配置可以在 xtable-hadoop-defaults.xml 文件中找到。自定义 Hadoop 配置可以通过 --hadoopConfig [custom-hadoop-config-file] 选项传入。自定义 Hadoop 配置文件中的配置将覆盖默认的 Hadoop 配置。有关自定义 Hadoop 配置文件的示例，请参见 hadoop.xml。

使用 Docker 运行

使用 docker build . -t xtable 构建 Docker 镜像
在容器上挂载配置文件并运行容器：

docker run \
  -v ./xtable/config.yml:/xtable/config.yml \
  -v ./xtable/core-site.xml:/xtable/core-site.xml \
  -v ./xtable/catalog.yml:/xtable/catalog.yml \
  xtable \
  --datasetConfig /xtable/config.yml --hadoopConfig /xtable/core-site.xml --icebergCatalogConfig xtable/catalog.yml