Python 爬虫实战：使用 Requests 库爬取贴吧数据

本文将介绍使用 Python 的 Requests 库爬取贴吧数据，并提供完整的代码示例。代码包含获取贴吧页面链接、发送请求、提取数据、保存数据等步骤。

代码示例：

import requests

class TiebaSpider():

    def __init__(self, kw, max_pn):
        self.max_pn = max_pn
        self.kw = kw
        self.base_url = 'https://tieba.baidu.com/f?kw={}&ie=utf-8&pn={}' 
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
        }
        pass

    def get_url_list(self):
        '''
        获取 url 列表
        :return: 
        '''
        # 写法一
        '''
        url_list = []

        for pn in range(0,self.max_pn,50):
            url = self.base_url.format(self.kw,pn)
            url_list.append(url)

        return url_list
        '''
        # 写法二
        return [self.base_url.format(self.kw,pn) for pn in range(0,self.max_pn,50)]

    def get_content(self,url):
        '''
        发送请求获取响应内容
        :param url: 
        :return: 
        '''
        response = requests.get(
            url=url,
            headers = self.headers
        )

        return response.content

    def get_items(self,content,idx):
        '''
        从响应内容中提取数据
        :param content: 
        :return: 
        '''
        with open('08-{}.html'.format(idx),'wb') as f:
            f.write(content)
        return None

    def save_items(self,items):
        '''
        保存数据
        :param items: 
        :return: 
        '''
        pass


    def run(self):

        # 1. 获取 url 列表
        url_list = self.get_url_list()

        for url in url_list:
            # 2. 发送请求获取响应
            content = self.get_content(url)

            # 3. 从响应中提取数据
            items = self.get_items(content,url_list.index(url) + 1)

            # 4. 保存数据
            self.save_items(items)

        pass

if __name__ == '__main__':
    spider = TiebaSpider('英雄联盟',150)
    spider.run()

代码解释：

导入 Requests 库： import requests
定义 TiebaSpider 类：
- __init__ 方法：初始化爬虫对象，包括关键字、最大页码、基础 URL、请求头等参数。
- get_url_list 方法：获取所有贴吧页面的 URL 列表。
- get_content 方法：发送请求获取页面内容。
- get_items 方法：从页面内容中提取所需数据。
- save_items 方法：保存提取到的数据。
- run 方法：执行爬取流程，包括获取 URL 列表、发送请求、提取数据、保存数据等步骤。
创建爬虫对象并运行：
- spider = TiebaSpider('英雄联盟',150) 创建一个爬取“英雄联盟”贴吧前 150 页数据的爬虫对象。
- spider.run() 运行爬虫。

注意事项：

爬取数据时请遵守网站的 robots.txt 协议。
使用合适的请求头伪装成浏览器访问。
提取数据时请注意页面结构的变化。
保存数据时请选择合适的文件格式。

总结：

本文介绍了使用 Python 的 Requests 库爬取贴吧数据的基本步骤，并提供了完整的代码示例。您可以根据自己的需求修改代码，以爬取其他网站的数据。

更多学习资料：

希望本文能帮助您学习使用 Python 进行数据爬取。