以下是示例代码:

import pandas as pd
import requests

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

# 发送请求并解析网页内容
url = 'http://www.sina.com.cn'
response = requests.get(url, headers=headers)
html = response.text

# 使用pandas读取网页内容中的表格数据
dfs = pd.read_html(html)

# 打印数据内容
for df in dfs:
    print(df)

解释:

  1. 首先,我们设置了一个请求头,以模拟浏览器发送请求。这是因为有些网站会拒绝没有请求头的爬虫请求。

  2. 然后,我们使用requests库向网站发送请求,并获取网页内容。这里我们使用text属性获取网页的HTML源代码。

  3. 接着,我们使用pandas的read_html函数来解析网页内容中的表格数据。这个函数可以自动识别HTML中的表格标签,并将其转换为DataFrame格式。

  4. 最后,我们遍历解析得到的所有数据框,并打印出来。可以发现,read_html函数会将网页中的所有表格都解析出来,因此可能会有多个数据框。

用python pandas抓取httpwwwsinacomcn网页中的数据显示数据内容加入请求头

原文地址: https://www.cveoy.top/t/topic/beeK 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录