Hadoop Mapper 实现：基于用户姓名和邮箱地址的处理

这段代码是一个名为 'Mapper' 的类，继承了 'org.apache.hadoop.mapreduce.Mapper' 类，用于在 Hadoop MapReduce 框架中处理数据。它接收以 'LongWritable' 表示的行号和以 'Text' 表示的文本行作为输入，并输出两个 'Text' 对象，分别表示用户姓名和相关信息。

代码首先通过判断行号是否大于 0 来排除表头信息。然后，它将文本行按逗号分隔成一个字符串数组，并检查数组长度是否大于等于 4，以确保数据完整性。如果满足条件，代码会提取第 2、3、4 个字段，分别赋值给 'firstName'、'lastName' 和 'emailAddress' 变量。

接下来，代码将 'firstName' 和 'lastName' 拼接成一个字符串，作为输出键 'outputKey' 。同时，它将第 1、2、3 个字段拼接成一个字符串，作为输出值 'outputValue' 。最后，代码使用 'context.write' 方法将 'outputKey' 和 'outputValue' 输出，完成数据处理过程。

Mapper 类结构图

Mapper类结构图

代码解析

继承 'org.apache.hadoop.mapreduce.Mapper' 类，并指定输入和输出键值对类型。
重写 'map' 方法，用于处理输入数据。
判断当前行是否为表头，并进行相应处理。
将文本行按逗号分隔成字符串数组。
检查数组长度是否满足要求，并提取相关字段。
拼接 'firstName' 和 'lastName' 作为输出键。
拼接相关字段作为输出值。
使用 'context.write' 方法输出结果。