使用词袋模型将文本数据转化为向量表示 - BBC 数据集示例 - 常规

使用词袋模型将文本数据转化为向量表示 - BBC 数据集示例

词袋模型是一种将文本数据转化为向量表示的简单方法。它忽略词语之间的顺序关系，只考虑词语在文本中出现的频率。本教程以 BBC 数据集为例，展示如何使用词袋模型将文本数据转化为向量表示。

实验数据集：BBC 数据集

BBC 数据集包含来自 BBC 网站的新闻文章，包含多个类别，例如商业、政治、体育等。该数据集包含词汇表文件 'bbc.terms' 和文本文件 'bbc.mtx'，其中 'bbc.terms' 文件包含所有词语，'bbc.mtx' 文件包含每篇文章中出现的词语及其频率。

步骤：

构建全零矩阵: 矩阵的行数是文本的篇数，矩阵的列数是词典的词数。矩阵中每行向量是预设的每篇文本的表示向量（预设为 0 向量），向量中每个元素代表词典中对应词在文章中出现的词频。
读取文件 'bbc.mtx' 内的内容: 获取每篇文本包含的词典中的词以及它们的词频。
找到文本对应的向量词对应的位置，词频 + 1: 更新向量。
重复步骤 2 和步骤 3: 直到读取完所有文本。
可以将向量进行归一化处理: 使其符合向量的定义，即所有元素的平方和为 1。

代码实现：

import numpy as np
import re

# 读取词典
with open('bbc.terms') as f:
    dictionary = f.read().splitlines()

# 构建全零矩阵
doc_matrix = np.zeros((2225, len(dictionary)))

# 读取文本文件
with open('bbc.mtx') as f:
    for line in f:
        if line.startswith('%'):
            continue
        else:
            doc_id, word_id, freq = map(int, line.split())
            # 找到对应词在向量中的位置，词频 + 1
            doc_matrix[doc_id-1, word_id-1] += freq

# 归一化处理
doc_matrix /= np.linalg.norm(doc_matrix, axis=1)[:, np.newaxis]

print(doc_matrix)

结果示例：

[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]]

该代码将 'bbc.mtx' 文件中的每个文本转换为一个向量，每个向量表示文本中每个词出现的频率。

总结

词袋模型是将文本数据转化为向量表示的一种简单方法，它可以用于各种自然语言处理任务，例如文本分类和文本聚类。