何利用python批量统计文件夹下docx文件中的特定关键词词频并将输出结果导出到excel
- 导入需要的库
import os
import docx
import openpyxl
- 定义函数,用于批量读取docx文件中的特定关键词
def get_word_count(file_path, keyword):
'''
获取文件中关键词出现的次数
:param file_path: 文件路径
:param keyword: 关键词
:return: 关键词出现的次数
'''
count = 0
doc = docx.Document(file_path)
for paragraph in doc.paragraphs:
if keyword in paragraph.text:
count += paragraph.text.count(keyword)
return count
- 定义函数,用于批量处理文件夹下的docx文件并将结果输出到excel文件中
def process_files(folder_path, keyword, excel_path):
'''
批量处理文件夹下的docx文件并将结果输出到excel文件中
:param folder_path: 文件夹路径
:param keyword: 关键词
:param excel_path: excel文件路径
'''
# 获取文件夹下的所有docx文件
file_list = [f for f in os.listdir(folder_path) if f.endswith('.docx')]
# 创建excel文件和sheet
wb = openpyxl.Workbook()
sheet = wb.active
sheet.title = 'Word Count'
# 写入表头
sheet.cell(row=1, column=1).value = '文件名'
sheet.cell(row=1, column=2).value = '关键词出现次数'
# 遍历文件列表,统计关键词出现次数并写入excel
for i, file_name in enumerate(file_list):
file_path = os.path.join(folder_path, file_name)
count = get_word_count(file_path, keyword)
sheet.cell(row=i+2, column=1).value = file_name
sheet.cell(row=i+2, column=2).value = count
# 保存excel文件
wb.save(excel_path)
- 调用函数并传入参数
folder_path = 'path/to/folder' # 文件夹路径
keyword = 'keyword' # 关键词
excel_path = 'path/to/excel' # excel文件路径
process_files(folder_path, keyword, excel_path)
以上是一个简单的批量统计文件夹下docx文件中的特定关键词词频,并将输出结果导出到excel的方法。
原文地址: https://www.cveoy.top/t/topic/bjlw 著作权归作者所有。请勿转载和采集!