Python 抓取 QQ 空间数据并解决中文乱码问题

在使用 Python 抓取 QQ 空间用户数据时，经常会遇到中文乱码的问题。本文将以获取用户昵称为例，讲解如何解决这个问题。

问题现象

假设我们要获取 QQ 号为 19319429 的用户昵称，使用以下代码：

import requests

url = 'https://users.qzone.qq.com/fcg-bin/cgi_get_portrait.fcg?uins=19319429'
response = requests.get(url)
response.encoding = 'gbk'  # 设置编码为gbk
data = response.text
print(data)

运行代码后，输出结果中中文部分显示为乱码，例如：'叶锟斤拷锟斤拷(锟斤拷D)'。

解决方法

在设置编码为 gbk 后，如果输出的中文部分还是乱码，可以尝试将编码设置为 utf-8 来解决这个问题。修改代码如下：

import requests

url = 'https://users.qzone.qq.com/fcg-bin/cgi_get_portrait.fcg?uins=19319429'
response = requests.get(url)
response.encoding = 'utf-8'  # 设置编码为utf-8
data = response.text
print(data)

将编码设置为 utf-8 后，应该能够正确显示中文字符。

总结

在使用 Python 抓取网站数据时，要特别注意编码问题。如果出现中文乱码，可以尝试调整 response.encoding 的值来解决。