Python 代码实现垃圾邮件词频统计
这段代码实现了读取一个文件夹中所有文件,并使用 mail.mail_api 函数将文件内容转换为字符串。然后使用 jieba 分词对字符串进行分词,并统计每个词出现的次数,将结果存储在一个字典 (dict0) 中。最后返回统计结果字典 (dict0)。可以推测这个函数是用于分析垃圾邮件中出现频率较高的词汇。
def add_spam_dict(time_str, dict0):
pathDir = os.listdir('test-spam')
for s in pathDir:
new_dir = os.path.join('test-spam', s) # 将文件命加入到当前文件路径后面
if os.path.isfile(new_dir): # 如果是文件
with open(new_dir, 'r') as f:
dict_word = mail.mail_api(f)
time_str = list(jieba.cut(dict_word))
for i in time_str:
if i in dict0.keys():
dict0[i] = int(dict0[i]) + 1
pass
return dict0
原文地址: https://www.cveoy.top/t/topic/ocpL 著作权归作者所有。请勿转载和采集!