Python爬虫反反爬虫：伪装浏览器请求头绕过网站限制

在爬取网站数据时，经常会遇到网站设置的反爬虫机制，例如限制访问频率、封禁IP等。为了绕过这些限制，我们可以通过模拟浏览器行为来伪装爬虫，其中设置请求头是最常用的方法之一。

什么是请求头？

请求头是发送HTTP请求时，包含在请求消息中的一些键值对，用于向服务器传递关于客户端、请求内容等信息。常见的请求头包括：

User-Agent：标识客户端的浏览器、操作系统等信息。
Referer：指示请求的来源页面。
Cookie：用于存储用户身份验证等信息。

如何伪装浏览器请求头？

我们可以使用Python的requests库发送HTTP请求，并通过设置headers参数来指定请求头。

以下是使用requests库模拟浏览器请求头，爬取Bangumi网站漫画排行榜数据的代码示例：

import requests
from bs4 import BeautifulSoup

def main():
    # 定义目标URL
    url = 'https://bgm.tv/anime/browser/airtime/2022'

    # 设置请求头，模拟浏览器的请求
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
    }

    # 发送HTTP请求并获取页面内容
    response = requests.get(url, headers=headers)
    html = response.text

    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(html, 'html.parser')

    # 找到漫画排行榜的父元素
    rankings = soup.find('ul', class_='browserFull')

    # 创建一个空列表，用于保存漫画信息
    manga_list = []

    # 遍历排行榜中的每个漫画
    for manga in rankings.find_all('li'):
        # 提取漫画的标题和评分
        title = manga.find('a', class_='l')['title']
        score = manga.find('span', class_='rank')['title']

        # 提取漫画的标签
        tags = manga.find_all('span', class_='grey')

        # 提取漫画的年限
        year = tags[0].text.strip()

        # 提取封面图链接
        cover_img = manga.find('img')['src']

        # 将漫画信息添加到列表中
        manga_list.append({'标题': title, '评分': score, '标签': tags[1].text.strip(), '年限': year, '封面图链接': cover_img})

    # 将漫画信息保存到文件中
    with open('manga_rankings.txt', 'w', encoding='utf-8') as file:
        for manga in manga_list:
            file.write(f'漫画标题: {manga['标题']}
')
            file.write(f'漫画评分: {manga['评分']}
')
            file.write(f'漫画标签: {manga['标签']}
')
            file.write(f'漫画年限: {manga['年限']}
')
            file.write(f'封面图链接: {manga['封面图链接']}
')
            file.write('------------------
')

    print('数据保存成功！')

if __name__ == '__main__':
    main()

在以上代码中，我们设置了User-Agent请求头，将其值设置为一个常见的浏览器标识字符串。这样，服务器在收到请求时会认为是来自浏览器的正常访问，从而避免触发反爬虫机制。

注意事项

不同的网站可能采用不同的反爬虫策略，因此需要根据实际情况调整请求头设置。
过于频繁地访问网站仍然可能被识别为爬虫，建议设置合理的访问间隔。
爬取网站数据时请遵守 robots.txt 协议和网站的相关规定。

希望本文能够帮助您了解如何使用Python爬虫模拟浏览器请求头，绕过网站反爬虫机制，并成功获取所需数据。