由于该网站需要登录才能访问,所以需要先模拟登录获取cookie,然后再发送请求获取数据。

以下是一个示例代码,使用Python 3 和 requests库实现:

import requests
from bs4 import BeautifulSoup

# 登录信息
login_url = 'https://www.modb.pro/auth/login'
username = 'your_username'
password = 'your_password'

# 登录获取cookie
session = requests.session()
login_page = session.get(login_url)
soup = BeautifulSoup(login_page.text, 'html.parser')
token = soup.select_one('input[name="_token"]')['value']
data = {
    '_token': token,
    'email': username,
    'password': password
}
session.post(login_url, data=data)

# 抓取数据
url = 'https://www.modb.pro/db/138373'
response = session.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.select('.table > tbody > tr')
for item in items:
    td_list = item.select('td')
    name = td_list[0].text.strip()
    type = td_list[1].text.strip()
    value = td_list[2].text.strip()
    print(name, type, value)

这段代码首先模拟登录获取session,然后发送请求获取数据并解析,将每一行的数据提取出来并打印出来。其中需要注意的是,获取数据的url为https://www.modb.pro/db/138373,这个url中的数字是该网站数据的唯一标识,如果需要获取其他数据,则需要替换这个数字为对应的标识。

写个抓取 httpswwwmodbprodb138373 的爬虫

原文地址: https://www.cveoy.top/t/topic/5Wf 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录