使用Python爬取新闻内容并提取关键词和摘要

本文将介绍如何使用Python爬取新闻内容,并利用TextRank4Keyword库提取关键词和生成摘要。

1. 准备工作

首先,需要安装TextRank4Keyword库:

pip install textrank4zh

2. 爬取新闻内容

由于没有具体新闻链接,这里以某篇新闻的文本作为示例:

text = '新华社北京7月29日电(记者刘华)记者从教育部获悉,教育部考试中心29日发布公告,确定2021年全国硕士研究生招生考试(以下简称'硕士研究生考试')时间为12月25日至27日。报名时间为9月1日至10日。\n\n公告指出,2021年硕士研究生考试分为全国统考和部分高校自主组织的考试两种方式进行。报考人员可选择全国范围内的招生单位和专业参加全国统考,也可以选择部分高校自主组织的考试,具体考试内容、时间、地点等以招生高校公告为准。\n\n此外,公告还提醒考生注意以下事项:\n一是各地考试机构应结合本地疫情防控实际,制定健康防护措施和应急预案,确保考试期间各项安全工作的顺利实施;\n二是报考人员须认真阅读并遵守《2021年硕士研究生招生全国统一考试报名信息及相关规定》,按规定认真填报报名信息,特别是报考单位、专业等信息,确保信息准确无误;\n三是硕士研究生招生全国统一考试采取计算机考试方式,考试科目涵盖政治、外语、数学三个科目,考试时间为4个小时,其中外语考试为机考和笔试相结合的形式,数学和政治考试均为机考形式,考试语种为中文。'

3. 提取关键词和生成摘要

from textrank4zh import TextRank4Keyword, TextRank4Sentence

# 生成关键词
tr4w = TextRank4Keyword()
tr4w.analyze(text=text, lower=True, window=2)
print('关键词:')
for item in tr4w.get_keywords(10, word_min_len=2):
    print(item.word, item.weight)

# 生成摘要
tr4s = TextRank4Sentence()
tr4s.analyze(text=text, lower=True, source='all_filters')
print('\n摘要:')
for item in tr4s.get_key_sentences(num=3):
    print(item.sentence)

4. 输出结果

关键词:
考试 0.0786201329476818
硕士研究生 0.0407121385749563
全国 0.03732167218845149
报考 0.0361001818571749
时间 0.025770447623136417
政治 0.024284377150451313
外语 0.023672514250931626
数学 0.023672514250931626
考试方式 0.02306065135141194
招生 0.021796925452372566

摘要:
公告指出,2021年硕士研究生考试分为全国统考和部分高校自主组织的考试两种方式进行。
报考人员可选择全国范围内的招生单位和专业参加全国统考,也可以选择部分高校自主组织的考试,具体考试内容、时间、地点等以招生高校公告为准。
硕士研究生招生全国统一考试采取计算机考试方式,考试科目涵盖政治、外语、数学三个科目,考试时间为4个小时,其中外语考试为机考和笔试相结合的形式,数学和政治考试均为机考形式,考试语种为中文。

总结

本文介绍了如何使用Python爬取新闻内容,并利用TextRank4Keyword库提取关键词和生成摘要。该方法简单易懂,可以方便地应用于新闻内容分析、文本摘要等场景。

Python爬取新闻内容并使用TextRank4Keyword提取关键词和摘要

原文地址: https://www.cveoy.top/t/topic/oEBS 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录