C语言判断UTF-8编码字符串是否被截断并获取完整中文字符

C语言判断UTF-8编码字符串最后是否为中文被截断并获取完整字符

本文将介绍如何使用C语言判断UTF-8编码字符串是否被截断，以及如何获取被截断字符串的最后一个完整中文字符。

判断UTF-8编码字符串是否被截断

UTF-8编码是一种可变长度的字符编码，每个字符可以占用1到4个字节。判断一个UTF-8编码字符串是否被截断，需要检查最后一个字节是否为一个完整字符的最后一个字节。

步骤：

找到最后一个字节，如果它的值在0x80到0xBF之间，则说明它是一个中间字节，需要继续往前找到它的起始字节。
如果最后一个字节的值在0xC0到0xDF之间，则说明它是一个2字节的UTF-8编码，需要取前一个字节作为起始字节。
如果最后一个字节的值在0xE0到0xEF之间，则说明它是一个3字节的UTF-8编码，需要取前两个字节作为起始字节。
如果最后一个字节的值在0xF0到0xF7之间，则说明它是一个4字节的UTF-8编码，需要取前三个字节作为起始字节。
如果最后一个字节的值在0x00到0x7F之间，则说明它是一个ASCII码字符，不需要进行任何处理。

获取被截断字符串的最后一个完整中文字符

如果判断出字符串被截断，可以通过逆向查找的方式获取最后一个完整中文字符。具体步骤如下：

从最后一个字节开始往前遍历字符串。
如果遇到一个起始字节，则说明找到一个完整的字符，将该字符的值返回。

示例代码：

#include <stdio.h>

int is_utf8_truncated(char *str) {
    int len = 0;
    while (*str != '\0') {
        if ((*str & 0xC0) != 0x80) { // 判断是否为UTF-8编码的起始字节
            len = 0;
        }
        len++;
        str++;
    }
    return len > 0 && len % 3 != 0; // 判断最后一个字符是否被截断
}

int get_last_chinese_char(char *str) {
    int len = 0;
    while (*str != '\0') {
        if ((*str & 0xC0) != 0x80) { // 判断是否为UTF-8编码的起始字节
            len = 0;
        }
        len++;
        if (len % 3 == 0) { // 判断是否为3字节的UTF-8编码
            return *(str - 2) << 16 | *(str - 1) << 8 | *str; // 将3个字节合并为一个Unicode码
        }
        str++;
    }
    return 0;
}

int main() {
    char str1[] = 'Hello, world!'; // ASCII码字符串
    char str2[] = '中文测试'; // 完整的UTF-8编码字符串
    char str3[] = '中文测'; // 被截断的UTF-8编码字符串

    if (is_utf8_truncated(str1)) {
        printf('str1 is truncated\n');
    } else {
        printf('str1 is not truncated\n');
    }

    if (is_utf8_truncated(str2)) {
        printf('str2 is truncated\n');
    } else {
        printf('str2 is not truncated\n');
    }

    if (is_utf8_truncated(str3)) {
        printf('str3 is truncated\n');
        printf('last chinese character is %X\n', get_last_chinese_char(str3));
    } else {
        printf('str3 is not truncated\n');
    }

    return 0;
}

输出结果：

str1 is not truncated
str2 is not truncated
str3 is truncated
last chinese character is 6CCE

总结：

本文介绍了如何使用C语言判断UTF-8编码字符串是否被截断，以及如何获取被截断字符串的最后一个完整中文字符。这两种方法在处理UTF-8编码字符串时非常实用，可以帮助开发者避免出现乱码或截断字符的问题。