Java 通过 Hadoop Configuration 访问 Apache Hudi 0.12.1

要在Java中访问Apache Hudi 0.12.1，可以使用以下步骤：

下载并安装Apache Hudi 0.12.1
在Java项目中引入hadoop-common-2.10.0.jar和hudi-spark-bundle-0.12.1.jar
使用以下代码创建Hudi配置对象：

Configuration conf = new Configuration();
conf.set('hadoop.tmp.dir', '/tmp/hadoop');
conf.set('fs.defaultFS', 'hdfs://localhost:8020');
conf.set('spark.serializer', 'org.apache.spark.serializer.KryoSerializer');
conf.set('spark.executor.memory', '2g');
conf.set('spark.executor.cores', '2');
conf.set('spark.driver.memory', '1g');

HoodieWriteConfig writeConfig = HoodieWriteConfig.newBuilder().withPath('/tmp/hudi/test-table')
            .withSchema(HoodieAvroUtils.addMetadataFields(new Schema.Parser().parse(SCHEMA)))
            .withParallelism(2, 2).withBulkInsertParallelism(2)
            .withFinalizeWriteParallelism(2).withInsertShuffleParallelism(2).withDeleteParallelism(2)
            .withAutoCommit(false).withStorageConfig(HoodieStorageConfig.newBuilder()
                .hfileMaxFileSize(1024 * 1024 * 1024).parquetMaxFileSize(1024 * 1024 * 1024).build()).build();

其中，HoodieWriteConfig是Hudi的写配置对象，可以设置Hudi表的路径、架构、并行度、存储配置等。

使用HoodieJavaWriter类将数据写入Hudi表：

HoodieJavaWriter writer = new HoodieJavaWriter();
writer.write(jsc, writeConfig, dataRDD);

其中，dataRDD是一个包含数据的RDD对象。

可以使用HoodieJavaClient类读取和查询Hudi表中的数据：

HoodieJavaClient client = new HoodieJavaClient();
JavaRDD<HoodieRecord> queryResults = client.read(jsc, '/tmp/hudi/test-table/*');

Java 通过 Hadoop Configuration 访问 Apache Hudi 0.12.1