1. 导入需要的库
import os
import docx
import openpyxl
  1. 定义函数,用于批量读取docx文件中的特定关键词
def get_word_count(file_path, keyword):
    '''
    获取文件中关键词出现的次数
    :param file_path: 文件路径
    :param keyword: 关键词
    :return: 关键词出现的次数
    '''
    count = 0
    doc = docx.Document(file_path)
    for paragraph in doc.paragraphs:
        if keyword in paragraph.text:
            count += paragraph.text.count(keyword)
    return count
  1. 定义函数,用于批量处理文件夹下的docx文件并将结果输出到excel文件中
def process_files(folder_path, keyword, excel_path):
    '''
    批量处理文件夹下的docx文件并将结果输出到excel文件中
    :param folder_path: 文件夹路径
    :param keyword: 关键词
    :param excel_path: excel文件路径
    '''
    # 获取文件夹下的所有docx文件
    file_list = [f for f in os.listdir(folder_path) if f.endswith('.docx')]

    # 创建excel文件和sheet
    wb = openpyxl.Workbook()
    sheet = wb.active
    sheet.title = 'Word Count'

    # 写入表头
    sheet.cell(row=1, column=1).value = '文件名'
    sheet.cell(row=1, column=2).value = '关键词出现次数'

    # 遍历文件列表,统计关键词出现次数并写入excel
    for i, file_name in enumerate(file_list):
        file_path = os.path.join(folder_path, file_name)
        count = get_word_count(file_path, keyword)
        sheet.cell(row=i+2, column=1).value = file_name
        sheet.cell(row=i+2, column=2).value = count

    # 保存excel文件
    wb.save(excel_path)
  1. 调用函数并传入参数
folder_path = 'path/to/folder'  # 文件夹路径
keyword = 'keyword'  # 关键词
excel_path = 'path/to/excel'  # excel文件路径
process_files(folder_path, keyword, excel_path)

以上是一个简单的批量统计文件夹下docx文件中的特定关键词词频,并将输出结果导出到excel的方法。

何利用python批量统计文件夹下docx文件中的特定关键词词频并将输出结果导出到excel

原文地址: https://www.cveoy.top/t/topic/bjlw 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录