Python 垃圾邮件数据集预处理及关键词检测

导入数据集

首先，我们需要将数据集导入到 Python 中。假设数据集文件名为 'spam.csv'，我们可以使用 pandas 库中的 read_csv 函数来读取数据集。

import pandas as pd

data = pd.read_csv('spam.csv')

数据预处理

接下来，我们需要对数据集进行预处理。具体来说，我们需要将文本转换为数字表示，并将标签转换为 0 和 1 表示。我们可以使用 sklearn 库中的 CountVectorizer 和 LabelEncoder 函数来实现这一步骤。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder

# 将文本转换为数字表示
vectorizer = CountVectorizer()
text = vectorizer.fit_transform(data['text'])

# 将标签转换为 0 和 1 表示
encoder = LabelEncoder()
label = encoder.fit_transform(data['type'])

训练模型

现在，我们可以使用 sklearn 库中的 train_test_split 函数将数据集分为训练集和测试集，并使用朴素贝叶斯分类器训练模型。

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(text, label, test_size=0.2)

# 训练模型
model = MultinomialNB()
model.fit(X_train, y_train)

检测关键词

现在，我们可以使用模型来检测关键词。具体来说，我们可以使用 CountVectorizer 函数来获取所有单词，并使用 coef_ 属性来获取每个单词的权重。然后，我们可以将权重排序，并显示前几个最重要的单词。

# 获取所有单词
words = vectorizer.get_feature_names()

# 获取每个单词的权重
weights = model.coef_[0]

# 将权重排序
sorted_weights = sorted(zip(words, weights), key=lambda x: x[1], reverse=True)

# 显示前几个最重要的单词
num_words = 10
for i in range(num_words):
    print(sorted_weights[i])

添加新的关键词

如果想要添加新的关键词作为新的特征进行预测，我们需要重新训练模型。具体来说，我们需要将新的关键词添加到 CountVectorizer 函数中，并重新使用 fit_transform 函数将文本转换为数字表示。然后，我们可以使用 train_test_split 函数将数据集分为训练集和测试集，并使用 MultinomialNB 函数重新训练模型。

# 添加新的关键词
new_words = ['free', 'money', 'click', 'offer']
vectorizer = CountVectorizer(vocabulary=vectorizer.vocabulary_, ngram_range=(1, 2))
text = vectorizer.fit_transform(data['text'])
for word in new_words:
    vectorizer.vocabulary_[word] = len(vectorizer.vocabulary_)

# 将文本转换为数字表示
text = vectorizer.fit_transform(data['text'])

# 将标签转换为 0 和 1 表示
encoder = LabelEncoder()
label = encoder.fit_transform(data['type'])

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(text, label, test_size=0.2)

# 训练模型
model = MultinomialNB()
model.fit(X_train, y_train)