用python写一个简单的爬虫 要注释详细
以下是一个简单的Python爬虫示例,它使用Requests库获取页面内容,然后使用BeautifulSoup库分析页面,并使用正则表达式提取所需的信息。该爬虫获取的是百度首页的logo图片链接。
import requests
from bs4 import BeautifulSoup
import re
# 设置请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求,获取页面内容
response = requests.get('https://www.baidu.com/', headers=headers)
# 使用BeautifulSoup解析页面
soup = BeautifulSoup(response.text, 'html.parser')
# 使用正则表达式查找图片链接
img_url_regex = re.compile(r'logo\.(png|gif|jpg|jpeg)')
img_url = soup.find('img', {'src': img_url_regex})['src']
# 输出图片链接
print(img_url)
该爬虫首先设置请求头,以模拟浏览器发送请求。然后使用Requests库发送请求,获取百度首页的页面内容。接着,使用BeautifulSoup库解析页面,方便后续的处理。最后,使用正则表达式查找页面中的logo图片链接,并输出该链接。
注释中说明了每一段代码的功能和作用,方便理解和学习。
原文地址: https://www.cveoy.top/t/topic/bHow 著作权归作者所有。请勿转载和采集!