Python网页爬取教程：使用requests和BeautifulSoup库提取数据

本教程将带您学习如何使用Python的requests和BeautifulSoup库来爬取网页数据。

代码示例

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 找到页面中的所有超链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

# 找到页面中所有的图片链接
images = soup.find_all('img')
for image in images:
    print(image.get('src'))

代码解析

导入库：首先导入requests库用于发送HTTP请求获取网页内容，以及BeautifulSoup库用于解析HTML页面。
获取网页内容：使用requests库的get()方法发送HTTP请求，并将返回的响应内容存储在response变量中。
解析HTML页面：使用BeautifulSoup库的BeautifulSoup()函数解析response的文本内容，并将其存储在soup变量中。
提取数据：可以使用find_all()方法来查找页面中所有符合要求的元素，例如超链接和图片链接。
- 找到所有超链接：links = soup.find_all('a')
- 找到所有图片链接：images = soup.find_all('img')
打印结果：使用循环遍历找到的元素，并使用get('href')和get('src')方法分别获取超链接和图片链接的地址，并打印输出。

总结

本教程演示了如何使用Python的requests和BeautifulSoup库进行基本的网页爬取操作，您可以根据实际需求修改代码，实现更复杂的数据提取任务。

注意： 爬取网页时请尊重网站的Robots协议，避免对网站造成过大的负载。

Python网页爬取教程：使用requests和BeautifulSoup库提取数据