THUNCNews 数据集是由清华大学自然语言处理与社会计算实验室发布的中文新闻文本数据集。该数据集包含了约12万篇新闻文本,其中包括了新闻标题、正文、时间等相关信息。这些新闻文本来源于多个不同的新闻网站,包括新浪、腾讯、网易等,涵盖了政治、经济、文化、体育等多个领域。THUNCNews 数据集的文本长度和主题覆盖广泛,能够有效地代表中文新闻文本的特点。此外,该数据集还提供了新闻的标签信息,包括了新闻类别、新闻子类别等,方便对新闻文本进行分类和研究。THUNCNews 数据集可以被广泛应用于中文文本分类、主题模型等多个自然语言处理任务中。

THUNCNews 数据集:中文新闻文本的宝库

原文地址: https://www.cveoy.top/t/topic/oXWO 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录