爬取多页网站的代码
这里提供一个示例代码,可以爬取多页的网站:
import requests
from bs4 import BeautifulSoup
# 定义函数,获取指定页码的网页内容
def get_page(page):
url = 'https://www.example.com/page/' + str(page)
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 在这里添加解析网页的代码,根据需要返回需要的内容
return soup
# 定义函数,遍历多个页码,获取网页内容
def get_multi_pages(start_page, end_page):
data = []
for page in range(start_page, end_page+1):
soup = get_page(page)
# 在这里添加处理网页内容的代码,根据需要将内容添加到 data 列表中
data += soup.find_all('a')
return data
# 调用函数,获取多页网站的内容
data = get_multi_pages(1, 5)
print(data)
在这个示例中,我们定义了两个函数:get_page 和 get_multi_pages。get_page 函数用来获取单个页面的内容,get_multi_pages 函数则用来遍历多个页面,获取它们的内容。
在 get_page 函数中,我们使用 requests 库发送请求获取网页内容,然后使用 BeautifulSoup 库解析网页内容。在这里,我们可以添加解析网页的代码,根据需要返回需要的内容。
在 get_multi_pages 函数中,我们遍历多个页面,调用 get_page 函数获取它们的内容,并将它们添加到 data 列表中。在这里,我们可以添加处理网页内容的代码,根据需要将内容添加到 data 列表中。
最后,我们调用 get_multi_pages 函数,传入起始页码和结束页码,获取多页网站的内容,并打印出来。
原文地址: https://www.cveoy.top/t/topic/C0f 著作权归作者所有。请勿转载和采集!