Python XPath 爬取表格数据 - 翻页实现完整数据抓取
翻页继续爬取下一页的数据,需要进行如下步骤:
-
获取当前页面的数据:使用 XPath 定位表格数据,并将其存储到一个数据结构中,如列表或字典。
-
判断是否有下一页:使用 XPath 定位下一页按钮或链接,判断是否存在,如果存在则继续执行下一步,否则退出程序。
-
点击下一页:使用 Selenium 模拟点击下一页按钮或链接,进入下一页页面。
-
重复步骤 1-3,直到所有页面的数据都被爬取完。
下面是一个示例代码:
from selenium import webdriver
from lxml import etree
# 初始化浏览器
browser = webdriver.Chrome()
# 访问第一页
browser.get('https://example.com/page1')
while True:
# 获取当前页面的数据
page_source = browser.page_source
tree = etree.HTML(page_source)
data = tree.xpath('//table//tr')
# 存储数据到文件或数据库等
save_data(data)
# 判断是否有下一页
next_page = tree.xpath('//a[@class='next']')
if len(next_page) == 0:
break
# 点击下一页
next_page_link = next_page[0].get('href')
browser.get(next_page_link)
# 关闭浏览器
browser.quit()
原文地址: https://www.cveoy.top/t/topic/m9t3 著作权归作者所有。请勿转载和采集!