用Python写一段能自动爬取网站的程序
以下是一个简单的Python程序,可以自动爬取指定网站的所有页面,并将页面中的所有链接保存到一个文本文件中。该程序使用了第三方库BeautifulSoup和Requests。
import requests
from bs4 import BeautifulSoup
# 要爬取的网站URL
url = 'https://www.example.com'
# 发送HTTP请求并获取响应
response = requests.get(url)
# 使用BeautifulSoup解析HTML页面
soup = BeautifulSoup(response.content, 'html.parser')
# 获取页面中所有链接
links = []
for link in soup.find_all('a'):
href = link.get('href')
if href.startswith('http'):
links.append(href)
# 将所有链接保存到文件中
with open('links.txt', 'w') as f:
for link in links:
f.write(link + '\n')
该程序首先发送HTTP请求获取指定网站的页面内容,然后使用BeautifulSoup解析HTML页面,并获取页面中所有链接。最后,将所有链接保存到一个文本文件中。
原文地址: https://www.cveoy.top/t/topic/bzsw 著作权归作者所有。请勿转载和采集!