ICU Normal 和 BreaWorld 字符串规范化策略对比及 C++ 实现

ICU Normal 策略和 BreaWorld 策略的区别在于它们使用不同的算法来进行字符串规范化（Normalization）。

ICU Normal 策略使用 Unicode 规范化算法，它将字符串转换为标准的 Unicode 格式，包括将字符转换为统一的表示形式、删除控制字符和私人使用区域的字符等。它支持四种规范化形式：NFC、NFD、NFKC 和 NFKD。例如，将字符串'é' 规范化为 NFC 形式会得到一个单一的字符'é'。

BreaWorld 策略则使用了一个称为 BreaWorld 算法的规范化算法，它将字符串中的非 ASCII 字符转换为 ASCII 字符，例如将'é' 转换为'e'，将'ß' 转换为'ss' 等。这种算法通常用于处理 URL 和文件名等需要 ASCII 字符集的场景。

以下是各自的 C++ 实现 demo：

ICU Normal 策略：

#include <unicode/normalizer2.h>
#include <iostream>
#include <string>

using namespace icu;

int main() {
    std::string str = 'é';
    UErrorCode status = U_ZERO_ERROR;

    // 获取 Unicode 规范化器
    auto normalizer = Normalizer2::getNFCInstance(status);
    if (U_FAILURE(status)) {
        std::cerr << 'Failed to get normalizer. Error code: ' << status << std::endl;
        return 1;
    }

    // 进行规范化
    UnicodeString inputStr(str.c_str(), str.length(), 'UTF-8');
    normalizer->normalize(inputStr);

    // 输出规范化后的结果
    std::string outputStr;
    inputStr.toUTF8String(outputStr);
    std::cout << outputStr << std::endl;

    return 0;
}

BreaWorld 策略：

#include <iostream>
#include <string>

std::string normalize(const std::string& str) {
    std::string outputStr;
    for (auto c : str) {
        if (c < 0x80) {
            outputStr += c;
        } else {
            static const char* map[] = {
                'A', 'A', 'A', 'A', 'AE', 'C', 'E', 'E', 'E', 'E', 'I', 'I', 'I', 'I', 'D', 'N',
                'O', 'O', 'O', 'O', 'O', 'O', 'U', 'U', 'U', 'U', 'Y', 'TH', 'ss', 'a', 'a', 'a',
                'a', 'ae', 'c', 'e', 'e', 'e', 'e', 'i', 'i', 'i', 'i', 'd', 'n', 'o', 'o', 'o',
                'o', 'o', 'o', 'u', 'u', 'u', 'u', 'y', 'th', 'y'
            };
            if (c >= 0xc0 && c <= 0xfb) {
                outputStr += map[c - 0xc0];
            }
        }
    }
    return outputStr;
}

int main() {
    std::string str = 'é';
    std::string outputStr = normalize(str);
    std::cout << outputStr << std::endl;
    return 0;
}

ICU Normal 和 BreaWorld 字符串规范化策略对比及 C++ 实现