Python网页爬取教程:使用requests和BeautifulSoup库提取数据

本教程将带您学习如何使用Python的requests和BeautifulSoup库来爬取网页数据。

代码示例

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 找到页面中的所有超链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

# 找到页面中所有的图片链接
images = soup.find_all('img')
for image in images:
    print(image.get('src'))

代码解析

  1. 导入库:首先导入requests库用于发送HTTP请求获取网页内容,以及BeautifulSoup库用于解析HTML页面。

  2. 获取网页内容:使用requests库的get()方法发送HTTP请求,并将返回的响应内容存储在response变量中。

  3. 解析HTML页面:使用BeautifulSoup库的BeautifulSoup()函数解析response的文本内容,并将其存储在soup变量中。

  4. 提取数据:可以使用find_all()方法来查找页面中所有符合要求的元素,例如超链接和图片链接。

    • 找到所有超链接:links = soup.find_all('a')
    • 找到所有图片链接:images = soup.find_all('img')
  5. 打印结果:使用循环遍历找到的元素,并使用get('href')get('src')方法分别获取超链接和图片链接的地址,并打印输出。

总结

本教程演示了如何使用Python的requests和BeautifulSoup库进行基本的网页爬取操作,您可以根据实际需求修改代码,实现更复杂的数据提取任务。

注意: 爬取网页时请尊重网站的Robots协议,避免对网站造成过大的负载。

Python网页爬取教程:使用requests和BeautifulSoup库提取数据

原文地址: http://www.cveoy.top/t/topic/mJHp 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录