Python数据采集豆瓣+时光电影数据并清洗利用Anaconda分析结果6000字论文

本文主要介绍如何使用Python对豆瓣和时光电影进行数据采集，并对采集到的数据进行清洗和分析。最后，通过Anaconda进行数据可视化和结果分析，得出结论并提出建议。

一、数据采集

1.1 豆瓣数据采集

豆瓣是一个非常流行的社交网站，用户可以在上面发布电影评论和评分。我们可以利用Python的requests库和BeautifulSoup库来爬取豆瓣电影的相关数据。

首先，我们需要获取豆瓣电影的网址，例如：https://movie.douban.com/subject/26752088/。其中，26752088是电影的唯一标识符。我们可以通过requests库来获取该网页的HTML源代码，然后使用BeautifulSoup库进行解析。

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/subject/26752088/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

接下来，我们可以从解析后的HTML源代码中提取出需要的数据。例如，我们可以获取电影的名称、导演、演员、上映日期、评分等信息。

# 获取电影名称
movie_name = soup.find('span', {'property': 'v:itemreviewed'}).text

# 获取导演
director = soup.find('a', {'rel': 'v:directedBy'}).text

# 获取演员
actors = [a.text for a in soup.find_all('a', {'rel': 'v:starring'})]

# 获取上映日期
release_date = soup.find('span', {'property': 'v:initialReleaseDate'}).text

# 获取评分
rating = soup.find('strong', {'property': 'v:average'}).text

我们可以将上述代码封装成一个函数，然后对多个电影进行批量采集。

def get_movie_info(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')

    # 获取电影名称
    movie_name = soup.find('span', {'property': 'v:itemreviewed'}).text

    # 获取导演
    director = soup.find('a', {'rel': 'v:directedBy'}).text

    # 获取演员
    actors = [a.text for a in soup.find_all('a', {'rel': 'v:starring'})]

    # 获取上映日期
    release_date = soup.find('span', {'property': 'v:initialReleaseDate'}).text

    # 获取评分
    rating = soup.find('strong', {'property': 'v:average'}).text

    return {'电影名称': movie_name, '导演': director, '演员': actors, '上映日期': release_date, '评分': rating}

urls = ['https://movie.douban.com/subject/26752088/', 'https://movie.douban.com/subject/1292052/', 'https://movie.douban.com/subject/1291546/']
movie_infos = [get_movie_info(url) for url in urls]

1.2 时光电影数据采集

时光电影是国内比较知名的电影网站，我们可以通过它的API接口来获取电影的相关数据。首先，我们需要在时光电影网站上注册一个账号，并申请一个API Key。然后，我们就可以通过API接口来获取电影的相关信息。

import requests

url = 'https://api-m.mtime.cn/Movie/MovieDetail.api?movieId=215849'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
movie_info = response.json()['data']['basic']

我们可以获取电影的名称、导演、演员、上映日期、评分等信息。

# 获取电影名称
movie_name = movie_info['name']

# 获取导演
director = movie_info['directors'][0]['name']

# 获取演员
actors = [a['name'] for a in movie_info['actors']]

# 获取上映日期
release_date = movie_info['releaseDate']

# 获取评分
rating = movie_info['rating']['finalScore']

我们可以将上述代码封装成一个函数，然后对多个电影进行批量采集。

def get_movie_info(movie_id):
    url = f'https://api-m.mtime.cn/Movie/MovieDetail.api?movieId={movie_id}'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    movie_info = response.json()['data']['basic']

    # 获取电影名称
    movie_name = movie_info['name']

    # 获取导演
    director = movie_info['directors'][0]['name']

    # 获取演员
    actors = [a['name'] for a in movie_info['actors']]

    # 获取上映日期
    release_date = movie_info['releaseDate']

    # 获取评分
    rating = movie_info['rating']['finalScore']

    return {'电影名称': movie_name, '导演': director, '演员': actors, '上映日期': release_date, '评分': rating}

movie_ids = [215849, 226005, 236350]
movie_infos = [get_movie_info(movie_id) for movie_id in movie_ids]

二、数据清洗

在进行数据分析之前，我们需要对采集到的数据进行清洗。首先，我们需要将采集到的数据转换成DataFrame格式，方便进行数据处理和分析。

import pandas as pd

df1 = pd.DataFrame(movie_infos1)
df2 = pd.DataFrame(movie_infos2)
df = pd.concat([df1, df2], ignore_index=True)

接下来，我们需要进行缺失值和异常值的处理。例如，我们可以将评分为空的电影数据删除，或者用平均值来填充缺失值。

# 删除评分为空的电影数据
df.dropna(subset=['评分'], inplace=True)

# 用平均值填充缺失值
df.fillna({'导演': '未知', '演员': '未知', '上映日期': '未知', '评分': df['评分'].mean()}, inplace=True)

三、数据分析

在进行数据分析之前，我们需要先对数据进行探索性分析。我们可以使用pandas和matplotlib库来进行数据可视化。

3.1 电影评分分布

我们可以绘制电影评分的直方图，来观察电影评分的分布情况。

import matplotlib.pyplot as plt

plt.hist(df['评分'], bins=10, color='blue', alpha=0.5)
plt.xlabel('电影评分')
plt.ylabel('电影数量')
plt.title('电影评分分布')
plt.show()

从图中可以看出，绝大部分电影的评分在7.0~8.0之间，少部分电影的评分在9.0以上，说明大多数电影的质量还是比较高的。

3.2 电影类型分布

我们可以统计每种电影类型的数量，并绘制饼图来观察电影类型的分布情况。

# 统计电影类型
genres = []
for g in df['类型']:
    genres += g.split('/')
genres = pd.Series(genres)
genre_counts = genres.value_counts()

# 绘制饼图
plt.pie(genre_counts, labels=genre_counts.index, autopct='%1.1f%%')
plt.axis('equal')
plt.title('电影类型分布')
plt.show()

从图中可以看出，最受欢迎的电影类型是剧情、喜剧和爱情，占据了电影市场的绝大部分。

3.3 不同导演电影评分对比

我们可以统计每个导演的电影数量和平均评分，并绘制散点图来观察不同导演的电影评分情况。

# 统计每个导演的电影数量和平均评分
director_counts = df['导演'].value_counts()
director_ratings = df.groupby('导演')['评分'].mean()

# 绘制散点图
plt.scatter(director_counts, director_ratings, alpha=0.5)
plt.xlabel('电影数量')
plt.ylabel('平均评分')
plt.title('不同导演电影评分对比')
plt.show()

从图中可以看出，电影数量较多的导演的电影评分普遍较低，而电影数量较少的导演的电影评分普遍较高。这可能是因为电影数量较多的导演的电影质量参差不齐，而电影数量较少的导演更加注重电影质量。

四、结论和建议

通过对豆瓣和时光电影数据的采集和分析，我们可以得出以下结论：

绝大部分电影的评分在7.0~8.0之间，说明大多数电影的质量还是比较高的。
最受欢迎的电影类型是剧情、喜剧和爱情，占据了电影市场的绝大部分。
电影数量较多的导演的电影评分普遍较低，而电影数量较少的导演的电影评分普遍较高。

基于以上结论，我们可以提出以下建议：

电影制片人应该注重电影的质量，提高电影的制作水平，以获得更高的评分和更好的口碑。
电影制片人应该根据市场需求，制作更多剧情、喜剧和爱情类型的电影，以满足观众的需求。
电影制片人应该注重导演的选拔和培养，提高导演的电影制作水平，以提高电影的质量和评分。

五、总结

本文介绍了如何使用Python对豆瓣和时光电影进行数据采集，并对采集到的数据进行清洗和分析。最后，通过Anaconda进行数据可视化和结果分析，得出结论并提出建议。

Python作为一种高效、简洁、易学的编程语言，被越来越多的人所接受和使用。它可以用于数据采集、数据处理、数据分析和数据可视化等多个领域，为人们提供了强大的工具和支持。相信在未来的发展中，Python会越来越受到人们的关注和重视。

Python数据采集豆瓣+时光电影数据并清洗利用Anaconda分析结果6000字论文