带鉴权接口文档 - 抓取网页内容 API

该接口用于抓取网页内容,需要进行鉴权认证才能使用。

接口地址: https://api.example.com/crawl

请求方法: POST

请求头:

| 参数名 | 类型 | 是否必填 | 描述 | | ---------- | ------ | -------- | ------------------------------------------------------------ | | Content-Type | string | 是 | 请求内容类型,必须为 'application/json' | | Authorization | string | 是 | 认证信息,格式为 'Bearer {token}',token 为访问令牌,必须为有效的令牌 |

请求参数:

| 参数名 | 类型 | 是否必填 | 描述 | | ----------- | ------- | -------- | ------------------------------------------------------------ | | url | string | 是 | 需要抓取的网页地址,必须为有效的 URL | | method | string | 是 | 请求方法,只支持 'GET' 和 'POST' | | headers | object | 否 | 请求头,支持自定义请求头,格式为 {'header_name': 'header_value'} | | data | object | 否 | 请求参数,只有当 method 为 'POST' 时才需要填写 | | timeout | integer | 否 | 超时时间,单位为秒,默认为 30 秒 | | retry_times | integer | 否 | 重试次数,默认为 3 次 |

响应参数:

| 参数名 | 类型 | 描述 | | ------ | ------ | ------------------------------------------------------------ | | status | string | 抓取状态,取值范围为 'success'、'fail' 和 'error',分别表示抓取成功、抓取失败和系统错误 | | url | string | 抓取的网页地址 | | html | string | 抓取到的网页内容 | | error | string | 错误信息,当 status 为 'fail' 或 'error' 时才会返回 |

示例:

请求:

POST /crawl HTTP/1.1
Host: api.example.com
Content-Type: application/json
Authorization: Bearer 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzdWIiOiIxMjM0NTY3ODkwIiwibmFtZSI6IkpvaG4gRG9lIiwiaWF0IjoxNTE2MjM5MDIyfQ.SflKxwRJSMeKKF2QT4fwpMeJf36POk6yJV_adQssw5c'

{
  "url": "https://www.example.com",
  "method": "GET",
  "headers": {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
  },
  "timeout": 60,
  "retry_times": 5
}

响应:

HTTP/1.1 200 OK
Content-Type: application/json

{
  "status": "success",
  "url": "https://www.example.com",
  "html": "<html>...</html>"
}
带鉴权接口文档 - 抓取网页内容 API

原文地址: https://www.cveoy.top/t/topic/nZki 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录