用python撰写以下API脚本百度API接口地址1:httpsuggestionbaiducomsuwd=网站优化百度API接口地址2:httpssp1baiducom5a1Fazu8AA54nxGko9WTAnF6hhysuwd=网站优化&cb=doJson实现检索页面内容中的pfalse后的关键词并将其记录到表格中同时实现自动去重
由于没有明确的表格格式和去重规则,以下是一个简单的示例脚本,可以将每个关键词存储为一行,并根据关键词自动去重。
import requests
import json
import pandas as pd
url1 = "http://suggestion.baidu.com/su?wd=网站优化"
url2 = "https://sp1.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=网站优化&cb=doJson"
# 获取关键词列表
response = requests.get(url2)
data = response.text[7:-2]
keywords = json.loads(data)['s']
# 去重
keywords = list(set(keywords))
# 获取每个关键词的p:false后面的内容
results = []
for keyword in keywords:
url = url1 + "&p=false&bs=" + keyword
response = requests.get(url)
data = response.text[18:-2]
if data != "":
results.append(data)
# 存储到表格中
df = pd.DataFrame(results, columns=["Keyword"])
df.to_csv("keywords.csv", index=False)
注意,这个脚本只是一个示例,实际应用中可能需要根据具体需求进行修改。例如,如果要将关键词存储到数据库中,可以使用SQLAlchemy等Python库进行操作。如果要根据特定规则进行去重,可以使用Python的集合(set)或pandas库中的去重函数(drop_duplicates)。
原文地址: https://www.cveoy.top/t/topic/baXR 著作权归作者所有。请勿转载和采集!