基于协同过滤算法的新闻推荐系统代码详解

{
"title": "基于协同过滤算法的新闻推荐系统代码详解",
"description": "本代码使用协同过滤算法实现了一个简单的新闻推荐系统，包含数据加载、相似度计算、推荐算法、可视化和交互等部分。代码使用Python编写，并附有详细注释。",
"keywords": "协同过滤, 新闻推荐, Python, 数据处理, 相似度计算, 推荐算法, 可视化, 交互",
"content": "```python
#!/usr/bin/python
# -*- coding: UTF-8 -*-
from math import sqrt
import operator

# 1. 构建用户-->新闻的倒排
# 该函数用于加载用户-新闻评分数据，并将其转化为字典形式，方便后续处理
# 输入：用户-新闻评分数据列表，每一行以逗号分隔，分别表示用户、评分、新闻
# 输出：一个字典，键为用户，值为另一个字典，表示该用户对各个新闻的评分
def loadData(files):
    data = {};
    # 遍历数据列表，将每行数据解析为用户、评分、新闻
    for line in files:
        user, score, item = line.split(",");
        # 使用字典的setdefault方法，如果用户不存在，则创建该用户对应的字典
        data.setdefault(user, {});
        # 将用户对新闻的评分存入字典
        data[user][item] = score;
    # 返回处理后的字典
    return data

# 2. 计算
# 2.1 构造新闻-->新闻的共现矩阵
# 2.2 计算新闻与新闻的相似矩阵
# 该函数用于计算新闻与新闻之间的相似度矩阵
# 输入：用户-新闻评分数据字典
# 输出：一个字典，键为新闻，值为另一个字典，表示该新闻与其他新闻的相似度
def similarity(data):
    # 2.1 构造新闻：新闻的共现矩阵
    # 使用两个字典存储共现信息
    # N: 每个新闻被喜欢的人数
    # C: 喜欢新闻i也喜欢新闻j的人数
    N = {};
    C = {};
    # 遍历用户-新闻评分数据字典
    for user, item in data.items():
        # 遍历用户喜欢的每个新闻
        for i, score in item.items():
            # 使用字典的setdefault方法，如果新闻不存在，则创建该新闻对应的计数
            N.setdefault(i, 0);
            N[i] += 1;
            # 创建新闻i对应的共现字典
            C.setdefault(i, {});
            # 遍历用户喜欢的其他新闻
            for j, scores in item.items():
                # 如果两个新闻不同
                if j not in i:
                    # 使用字典的setdefault方法，如果共现关系不存在，则创建该共现关系的计数
                    C[i].setdefault(j, 0);
                    C[i][j] += 1;


    # 2.2 计算新闻与新闻的相似矩阵
    # 使用W字典存储新闻之间的相似度
    W = {};
    # 遍历共现矩阵
    for i, item in C.items():
        # 创建新闻i对应的相似度字典
        W.setdefault(i, {});
        # 遍历新闻i与其他新闻的共现关系
        for j, item2 in item.items():
            # 使用字典的setdefault方法，如果相似度关系不存在，则创建该相似度关系的计数
            W[i].setdefault(j, 0);
            # 计算新闻i与新闻j之间的相似度，使用余弦相似度公式
            W[i][j] = C[i][j] / sqrt(N[i] * N[j]);
    # 返回计算好的相似度矩阵
    return W

# 3. 根据用户的历史记录，给用户推荐新闻
# 该函数用于根据用户的历史记录和新闻相似度矩阵，为用户推荐新闻
# 输入：用户-新闻评分数据字典、新闻相似度矩阵、用户ID、推荐新闻数量、相似新闻数量
# 输出：一个列表，包含推荐的新闻和对应的评分
def recommandList(data, W, user, k=3, N=10):
    # 使用rank字典存储推荐结果
    rank = {};
    # 遍历用户历史记录
    for i, score in data[user].items():  # 获得用户user历史记录，如A用户的历史记录为{'a': '1', 'b': '1', 'd': '1'}
        # 遍历与新闻i相似的k个新闻
        for j, w in sorted(W[i].items(), key=operator.itemgetter(1), reverse=True)[0:k]:  # 获得与新闻i相似的k个新闻
            # 如果该相似的新闻不在用户user的记录里
            if j not in data[user].keys():
                # 使用字典的setdefault方法，如果推荐结果不存在，则创建该推荐结果的计数
                rank.setdefault(j, 0);
                # 计算新闻j的推荐分数，使用用户对新闻i的评分乘以新闻i与新闻j的相似度
                rank[j] += float(score) * w;

    # 返回按推荐分数排序的前N个新闻
    return sorted(rank.items(), key=operator.itemgetter(1), reverse=True)[0:N];

if __name__ == '__main__':
    # 用户，兴趣度，新闻
    # 此处的数据为示例数据，可以替换为实际的用户-新闻评分数据
    uid_score_bid = ['A,1,a', 'A,1,b', 'A,1,d', 'B,1,b', 'B,1,c', 'B,1,e']

    # uid_score_bid = ['5,1,5','2,1,5', '2,1,38', '2,1,40', '2,1,44', '2,1,63', '2,1,107', '2,1,6', '2,1,14', '2,1,27', '2,1,32', '2,1,56', '2,1,77', '2,1,89', '2,1,92', '2,1,94', '2,1,111', '2,1,123', '2,1,124', '4,1,9', '4,1,15', '4,1,20', '4,1,22', '4,1,85', '4,1,95', '4,1,99', '4,1,131', '4,1,5', '4,1,38', '4,1,40', '4,1,44', '4,1,63', '4,1,107', '4,1,13', '4,1,17', '4,1,58', '4,1,8', '4,1,18', '4,1,21', '4,1,26', '4,1,34', '4,1,48', '4,1,51', '4,1,64', '4,1,70', '4,1,79', '4,1,84', '4,1,101', '4,1,106', '4,1,116', '4,1,117', '4,1,119', '4,1,126', '2,1,8', '2,1,18', '2,1,21', '2,1,26', '2,1,34', '2,1,48', '2,1,51', '2,1,64', '2,1,70', '2,1,79', '2,1,84', '2,1,101', '2,1,106', '2,1,116', '2,1,117', '2,1,119', '2,1,126']
    # uid_score_bid = ['1,4,257', '1,4,62', '2,4,61', '2,4,64', '2,4,68', '2,4,67']

    # 加载用户-新闻评分数据
    data = loadData(uid_score_bid);
    # 计算新闻相似度矩阵
    W = similarity(data);
    # 为用户5推荐10个新闻，每个新闻考虑与之相似的3个新闻
    a = recommandList(data, W, '5', 5, 10);
    # 打印推荐结果
    print(a)

代码解析

1. 数据加载和处理

loadData 函数用于加载用户-新闻评分数据，并将其转化为字典形式。

2. 相似度计算

similarity 函数用于计算新闻与新闻之间的相似度矩阵。该函数使用余弦相似度公式来计算相似度。

3. 推荐算法

recommandList 函数用于根据用户的历史记录和新闻相似度矩阵，为用户推荐新闻。该函数使用以下逻辑进行推荐：

遍历用户历史记录，对于每个用户喜欢的新闻 i，计算与之相似的 k 个新闻。
对于每个与 i 相似的新闻 j，如果 j 不在用户历史记录中，则计算 j 的推荐分数，使用用户对 i 的评分乘以 i 与 j 的相似度。
按推荐分数排序，返回前 N 个新闻。

4. 可视化和交互

代码中没有包含可视化和交互部分。

5. 数据库操作

代码中没有包含数据库操作部分。

补充说明

本代码仅为一个简单的示例，实际的新闻推荐系统需要考虑更多的因素，例如：

用户画像：根据用户的兴趣、年龄、性别等信息进行个性化推荐。
内容特征：根据新闻的类别、主题、关键词等信息进行推荐。
时间因素：根据新闻的发布时间和用户访问时间进行推荐。
冷启动问题：对于新用户或新新闻，如何进行推荐。

代码优化

可以使用 pandas 库来加载和处理数据。
可以使用 scipy 库中的 sparse 模块来存储和计算稀疏矩阵，提高计算效率。
可以使用 matplotlib 库或其他可视化库来展示推荐结果。
可以使用 flask 或 django 等框架来构建Web服务，提供用户交互功能。

代码总结

本代码使用协同过滤算法实现了一个简单的新闻推荐系统，包含数据加载、相似度计算、推荐算法等部分。代码使用Python编写，并附有详细注释。实际的新闻推荐系统需要考虑更多的因素，并进行进一步优化。