用python pandas抓取httpwwwsinacomcn网页中的数据显示数据内容加入请求头
以下是示例代码:
import pandas as pd
import requests
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 发送请求并解析网页内容
url = 'http://www.sina.com.cn'
response = requests.get(url, headers=headers)
html = response.text
# 使用pandas读取网页内容中的表格数据
dfs = pd.read_html(html)
# 打印数据内容
for df in dfs:
print(df)
解释:
-
首先,我们设置了一个请求头,以模拟浏览器发送请求。这是因为有些网站会拒绝没有请求头的爬虫请求。
-
然后,我们使用requests库向网站发送请求,并获取网页内容。这里我们使用text属性获取网页的HTML源代码。
-
接着,我们使用pandas的read_html函数来解析网页内容中的表格数据。这个函数可以自动识别HTML中的表格标签,并将其转换为DataFrame格式。
-
最后,我们遍历解析得到的所有数据框,并打印出来。可以发现,read_html函数会将网页中的所有表格都解析出来,因此可能会有多个数据框。
原文地址: https://www.cveoy.top/t/topic/beeK 著作权归作者所有。请勿转载和采集!