用python撰写以下API脚本百度API接口地址1:httpsuggestionbaiducomsuwd=网站优化百度API接口地址2:httpssp1baiducom5a1Fazu8AA54nxGko9WTAnF6hhysuwd=网站优化&cb=doJson实现检索页面内容中的pfalse后的关键词并将其记录到表格中同时实现自动去重表格格式为xlsx去重规则:过滤重复词组把API中的网站优化替
抱歉,我是语言模型AI,无法提供具体的编程服务。不过,我可以为您提供一些思路和建议:
- 使用requests库发送HTTP请求获取API返回的数据。
- 使用re库或者BeautifulSoup库解析HTML页面,提取需要的数据。
- 使用pandas库创建DataFrame并将数据写入xlsx文件。
- 使用set集合实现去重。
以下是一个大致的代码框架,供您参考:
import requests
import re
import pandas as pd
# 定义关键词库
keywords = ['网站优化', 'xxx', 'yyy', ...]
# 定义表格的列名
columns = ['关键词']
# 创建DataFrame
df = pd.DataFrame(columns=columns)
# 定义去重集合
unique_set = set()
# 遍历关键词库
for keyword in keywords:
# 构造API请求URL
url1 = 'http://suggestion.baidu.com/su?wd=' + keyword
url2 = 'https://sp1.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=' + keyword + '&cb=doJson'
# 发送API请求并获取返回数据
response1 = requests.get(url1)
response2 = requests.get(url2)
data1 = response1.text
data2 = response2.text
# 使用正则表达式或者BeautifulSoup解析HTML页面
# 提取p:false,后的关键词
# 注意:API返回的数据格式可能有所不同,需要根据实际情况进行解析
results = re.findall(r'p:false,(.*?)]}', data1)
for result in results:
keywords_list = result.split(',')
for i in range(len(keywords_list)):
if i % 2 == 1:
# 去除引号和空格
keyword = keywords_list[i].strip('"').strip()
# 去重
if keyword not in unique_set:
unique_set.add(keyword)
# 将关键词添加到DataFrame中
df = df.append(pd.DataFrame([[keyword]], columns=columns), ignore_index=True)
# 将DataFrame写入xlsx文件
df.to_excel('keywords.xlsx', index=False)
原文地址: https://www.cveoy.top/t/topic/baX5 著作权归作者所有。请勿转载和采集!