由于涉及到网站的爬取,可能会存在一定的法律风险,请谨慎使用此代码。

以下是Python代码实现:

import requests
from bs4 import BeautifulSoup

# 获取网页源代码
url = 'https://movie.douban.com/subject/27619748/comments?status=P'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = response.text

# 解析网页内容
soup = BeautifulSoup(html, 'html.parser')
comments = soup.find_all('span', {'class': 'short'})
ratings = soup.find_all('span', {'class': 'comment-info'})

# 统计评分数量和评分总和
count = 0
total_rating = 0
for i, rating in enumerate(ratings):
    if rating.find('span', {'class': 'rating'}):
        count += 1
        total_rating += int(rating.find('span', {'class': 'rating'}).get('title'))

# 计算平均评分
average_rating = total_rating / count if count > 0 else 0

# 输出结果
print('魔童降世的评分统计:')
print('评分数量:', count)
print('评分总和:', total_rating)
print('平均评分:', average_rating)
print('前10条评论:')
for i in range(10):
    print(comments[i].text)

此代码通过requests库获取网页源代码,然后使用BeautifulSoup库解析网页内容,获取影评和评分数据,统计评分数量和评分总和,计算平均评分,并输出前10条评论。需要注意的是,豆瓣网对爬虫有反爬机制,因此需要加入User-Agent头部信息模拟浏览器访问。


原文地址: https://www.cveoy.top/t/topic/nzax 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录