帮我写一个爬虫爬取百度的信息存在text的文本中
以下是一个使用Python编写的爬虫程序,用于爬取百度搜索结果并将结果保存到文本文件中。你可以根据自己的需求进行修改和扩展。
import requests
from bs4 import BeautifulSoup
def baidu_spider(keyword):
url = f"https://www.baidu.com/s?wd={keyword}"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text, 'html.parser')
results = soup.select('.result')
with open('search_results.txt', 'w', encoding='utf-8') as file:
for result in results:
title = result.select('.t a')[0].get_text()
link = result.select('.t a')[0]['href']
abstract = result.select('.c-abstract')[0].get_text()
file.write(f"标题:{title}\n链接:{link}\n摘要:{abstract}\n\n")
if __name__ == '__main__':
keyword = input("请输入要搜索的关键词:")
baidu_spider(keyword)
print("搜索结果已保存到search_results.txt文件中。")
运行以上代码后,程序会要求你输入要搜索的关键词。然后它会爬取百度搜索结果的标题、链接和摘要,并将结果保存到名为search_results.txt的文本文件中。
请注意,爬取其他网站的数据可能涉及到法律和道德问题,建议在合法的范围内使用爬虫技术
原文地址: https://www.cveoy.top/t/topic/iVbH 著作权归作者所有。请勿转载和采集!