Python基础爬虫代码示例:获取网页标题和内容
以下是一个基础的爬虫代码,可以爬取指定的网址并打印出网页的标题和内容:
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
# 发送HTTP请求
res = requests.get(url)
# 解析HTML内容
soup = BeautifulSoup(res.text, 'html.parser')
# 获取网页标题和内容
title = soup.title.string
content = soup.get_text()
# 打印结果
print('网页标题:', title)
print('网页内容:', content)
该代码使用 requests 库发送 HTTP 请求获取网页内容,并使用 BeautifulSoup 库解析 HTML 结构。通过 soup.title.string 获取网页标题,soup.get_text() 获取网页文本内容。最后,代码将标题和内容打印到控制台。
注意:
- 请勿使用爬虫进行任何非法活动,例如收集个人信息或攻击网站。
- 在爬取网站时,请遵守网站的 robots.txt 协议,避免给网站造成负担。
- 爬取网站数据前,请先了解网站的使用条款,确保您的行为合法。
原文地址: https://www.cveoy.top/t/topic/lYKT 著作权归作者所有。请勿转载和采集!