根据以下要求完成课题:综合运用所学知识使用Python语言爬取指定网站信息并提交代码及相关结果截图。具体要求如下:一、使用网络爬虫技术抓取《穿靴子的猫2》在豆瓣电影上的所有页的影评数据抓取地址:httpsmoviedoubancomsubject25868125步骤1:借助Selenium库点击进入电影全部影评。步骤2:从’httpsmoviedoubancomsubject25868125com
ExamA-人工智能2104-2021010001-张三
import time import json from selenium import webdriver
创建浏览器对象
browser = webdriver.Chrome()
访问url地址
browser.get('https://movie.douban.com/subject/25868125/')
定位元素并点击
btn = browser.find_element_by_css_selector('#comments-section > div:nth-child(1) > h2 > span > a') btn.click()
请求头提取
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36', 'Referer': 'https://movie.douban.com/subject/25868125/comments?status=P' }
初始页面url确定
url = 'https://movie.douban.com/subject/25868125/comments?start=0&limit=20&status=P&sort=new_score'
遍历页面循环
for i in range(3): # 发送请求并获得网页数据 response = requests.get(url, headers=headers)
# 解析网页结构
soup = BeautifulSoup(response.text, 'html.parser')
# 定位评论人名称、评论时间以及评论
comments = soup.find_all('div', class_='comment-item')
data = []
for comment in comments:
name = comment.find('a', class_='').text.strip()
time = comment.find('span', class_='comment-time').text.strip()
content = comment.find('span', class_='short').text.strip()
data.append({'name': name, 'time': time, 'content': content})
# 文件数据写入
with open(f'comments_{i+1}.json', 'w', encoding='utf-8') as f:
# 文件定义json格式
json.dump(data, f, ensure_ascii=False, indent=4)
# 页面翻页规律设置
url = 'https://movie.douban.com/subject/25868125/comments?start={}&limit=20&status=P&sort=new_score'.format(i*20)
# 间隔3秒爬取下一页
time.sleep(3)
关闭浏览器
browser.quit(
原文地址: https://www.cveoy.top/t/topic/g65y 著作权归作者所有。请勿转载和采集!