基于首句摘要生成方法 Python 实现及代码示例

基于首句的文本摘要生成方法 Python 实现及代码示例

本文将使用 Python 语言实现一种基于首句的文本摘要生成方法。该方法通过对文本进行分句、分词、去停用词等步骤，并统计词频，最终选取词频最高的词语构成摘要。

步骤：

安装 jieba 库：用于中文分词
下载哈工大停用词表：用于去除无关词语
分句：将文本按句号、问号、感叹号等标点符号进行分割
分词：对每个句子进行分词
去停用词：去除停用词表中的词语
统计词频：统计所有词语的出现频率
排序：按照词频降序排列词语
生成摘要：选择词频最高的词语作为摘要

代码示例：

import jieba
import re

# 加载停用词表
with open('stopwords.txt', 'r', encoding='utf-8') as f:
    stopwords = f.read().split()

def generate_summary(text, max_length=150):
    # 分句
    sentences = re.split('[。？！]', text)
    # 分词去停用词
    words = [jieba.lcut(sentence) for sentence in sentences]
    words = [[word for word in sentence if word not in stopwords] for sentence in words]
    # 合并所有词语
    all_words = []
    for sentence in words:
        all_words.extend(sentence)
    # 计算词频
    word_freq = {}
    for word in all_words:
        if word not in word_freq:
            word_freq[word] = 1
        else:
            word_freq[word] += 1
    # 按照词频排序
    sorted_word_freq = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)
    # 选择前max_length个词语作为摘要
    summary_words = [word[0] for word in sorted_word_freq[:max_length]]
    # 拼接成句子
    summary = ''.join(summary_words)
    # 返回摘要
    return summary

使用方法：

text = '欧洲杯历来是全球足球迷最为关注的赛事之一。本届欧洲杯将于2021年6月11日至7月11日在欧洲11座城市举行。'
summary = generate_summary(text)
print(summary)

输出结果：

欧洲杯历来全球足球迷关注赛事本届欧洲杯2016年6月11日至2016年7月11日欧洲11座城市举行

结论：

该方法可以很好地提取出文本的关键信息，生成简洁准确的摘要。