以下是一个基础的爬虫代码,可以爬取指定的网址并打印出网页的标题和内容:

import requests
from bs4 import BeautifulSoup

url = 'https://www.example.com'

# 发送HTTP请求
res = requests.get(url)

# 解析HTML内容
soup = BeautifulSoup(res.text, 'html.parser')

# 获取网页标题和内容
title = soup.title.string
content = soup.get_text()

# 打印结果
print('网页标题:', title)
print('网页内容:', content)

该代码使用 requests 库发送 HTTP 请求获取网页内容,并使用 BeautifulSoup 库解析 HTML 结构。通过 soup.title.string 获取网页标题,soup.get_text() 获取网页文本内容。最后,代码将标题和内容打印到控制台。

注意:

  • 请勿使用爬虫进行任何非法活动,例如收集个人信息或攻击网站。
  • 在爬取网站时,请遵守网站的 robots.txt 协议,避免给网站造成负担。
  • 爬取网站数据前,请先了解网站的使用条款,确保您的行为合法。
Python基础爬虫代码示例:获取网页标题和内容

原文地址: https://www.cveoy.top/t/topic/lYKT 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录