Python UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 解决方法

Python UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 222: invalid start byte

在使用 Python 处理文本数据时，经常会遇到 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 222: invalid start byte 错误。这个错误意味着你试图用 UTF-8 编码解码一个包含非 UTF-8 字符的字节流。

错误原因分析

这个错误通常发生在以下几种情况下：

文件编码不一致： 你试图用 UTF-8 解码一个用其他编码（例如 GBK、Latin-1）保存的文件。
网络传输错误： 从网络上获取的数据可能在传输过程中出现了错误，导致数据不完整或者被污染。
数据来源错误： 你获取的数据本身就包含非 UTF-8 字符，例如从数据库中读取数据时，数据库编码可能与你的程序编码不一致。

解决方法

针对不同的错误原因，我们可以采取不同的解决方法：

识别文件编码：

使用文本编辑器查看文件的编码方式，例如 Notepad++、Sublime Text 等。

使用 chardet 库自动识别文件编码：

import chardet

with open('your_file.txt', 'rb') as f:
    data = f.read()
    encoding = chardet.detect(data)['encoding']
    print(f'文件编码为：{encoding}')

修改编码方式：

使用 open() 函数指定文件编码：

with open('your_file.txt', 'r', encoding='gbk') as f:
    data = f.read()
    print(data)

在读取数据时指定解码方式：

data = b'你的数据'.decode('gbk')
print(data)

使用正确的解码器：
- 如果数据来源已知，可以使用相应的解码器进行解码，例如：
```
import codecs

data = codecs.decode(b'你的数据', 'latin-1')
print(data)
```

处理网络传输错误：

使用 requests 库的 stream=True 参数，逐块读取数据，并进行错误处理：

import requests

url = 'https://www.example.com'
response = requests.get(url, stream=True)
for chunk in response.iter_content(chunk_size=1024): 
    try:
        data = chunk.decode('utf-8')
        # 处理数据
    except UnicodeDecodeError:
        # 处理解码错误

预防措施

在项目开发初期，明确文件编码并统一使用 UTF-8 编码。
使用编码检测工具，及时发现编码错误。
避免使用不安全的字符，例如控制字符、非打印字符等。

总结

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 222: invalid start byte 错误通常是由于编码不一致导致的。通过仔细分析错误原因并采取相应的解决方法，可以有效地避免这个错误。

Python UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 解决方法