Hadoop 自定义排序器：Comparator 类详解

这段代码定义了一个名为 Comparator 的类，它扩展了 org.apache.hadoop.io.WritableComparator 类，并重写了父类中的 compare 方法。主要功能是比较两个 Text 类型的数据（格式为'firstName,lastName'），并按照名字（firstName）从大到小排序，如果名字相同，则按照姓氏（lastName）从大到小排序。

代码分析

package com.mystudy.Hadooppp;  //声明了一个名为com.mystudy.Hadooppp的包。
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;  //导入了两个类Text和WritableComparable，这两个类是Hadoop的核心数据类型。

public class Comparator extends org.apache.hadoop.io.WritableComparator {
    public Comparator() {
        super(Text.class, true);  //定义了一个无参构造函数，它调用了父类的构造函数，并传入了Text.class和true作为参数。
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        Text aText = (Text) a;
        Text bText = (Text) b;  //将a和b转换为Text类型，并将它们分别赋值给aText和bText变量。
        String[] aFields = aText.toString().split(",");
        String[] bFields = bText.toString().split(",");  //使用逗号将aText和bText转换为字符串数组，并将它们分别赋值给aFields和bFields变量。
        String aFirstName = aFields[0];
        String bFirstName = bFields[0];       //将aFields和bFields中的第一个元素（即名字）分别赋值给aFirstName和bFirstName变量。
        String aLastName = aFields[1];
        String bLastName = bFields[1];        //将aFields和bFields中的第二个元素（即姓氏）分别赋值给aLastName和bLastName变量。

        int firstNameCompareResult = bFirstName.compareToIgnoreCase(aFirstName);  //比较bFirstName和aFirstName的字典序，并将结果赋值给firstNameCompareResult变量。
        if (firstNameCompareResult != 0) {
            return firstNameCompareResult;
        } else {
            return bLastName.compareToIgnoreCase(aLastName);  //如果firstNameCompareResult等于0，则比较bLastName和aLastName的字典序，并返回比较结果。
        }
    }
}

工作流程

定义了一个无参构造函数，它调用了父类的构造函数，并传入了 Text.class 和 true 作为参数。这里的 true 表示要创建一个实例，而不是使用缓存中的实例。
重写了父类中的 compare 方法，并接受两个参数 a 和 b，它们都是 WritableComparable 类型的。
将 a 和 b 转换为 Text 类型，并将它们分别赋值给 aText 和 bText 变量。
使用逗号将 aText 和 bText 转换为字符串数组，并将它们分别赋值给 aFields 和 bFields 变量。
将 aFields 和 bFields 中的第一个元素（即名字）分别赋值给 aFirstName 和 bFirstName 变量。
将 aFields 和 bFields 中的第二个元素（即姓氏）分别赋值给 aLastName 和 bLastName 变量。
比较 bFirstName 和 aFirstName 的字典序，并将结果赋值给 firstNameCompareResult 变量。
如果 firstNameCompareResult 不等于 0，直接返回 firstNameCompareResult。
如果 firstNameCompareResult 等于 0，则比较 bLastName 和 aLastName 的字典序，并返回比较结果。

应用场景

这个类的作用是在 Hadoop 的 MapReduce 计算框架中，对 Mapper 输出的数据进行排序。如果需要按照自定义的顺序进行排序，可以通过编写 Comparator 类来实现，以满足具体需求。

设计图

Comparator类设计图

其中，红色部分表示父类中的代码，蓝色部分表示子类中的代码。

总结

Comparator 类是 Hadoop 中一个重要的自定义排序器，可以根据需求实现不同的排序逻辑，满足各种数据处理场景。