Python Pandas 批量下载网页表格数据并保存为CSV文件
使用Python Pandas批量下载网页表格数据并保存为CSV文件
本文将介绍如何使用Python Pandas库从网页http://20.127.42.47:6006/home/bigdataindex下载表格数据,该网页共6526页,每页20行,总共130513行数据。
代码示例
import pandas as pd
# 定义网页地址和每页行数
url = 'http://20.127.42.47:6006/home/bigdataindex'
rows_per_page = 20
# 读取所有数据并保存为csv文件
df_list = []
for i in range(1, 6527):
page_url = url + '?page=' + str(i)
df = pd.read_html(page_url)[0]
df_list.append(df)
df_all = pd.concat(df_list)
df_all.to_csv('data.csv', index=False)
代码解释
- 定义网页地址和每页行数: 首先,我们定义了网页地址和每页行数,以便后续循环读取数据。
- 循环读取数据: 使用循环逐页读取数据,并将每页数据添加到一个数据框列表中。
- 合并数据框: 使用
pd.concat函数将所有数据框合并为一个数据框。 - 保存数据: 将合并后的数据框保存为CSV文件,并使用
index=False参数避免保存行索引。
总结
本示例演示了如何使用Python Pandas库从网页表格中批量下载数据,并将其保存为CSV文件。该方法适用于从多个页面读取数据并进行整合的场景。
原文地址: https://www.cveoy.top/t/topic/nCCn 著作权归作者所有。请勿转载和采集!