本文采用清华大学整理和发布的THUCNews中文新闻标题作为实验数据集。该数据集是根据新浪新闻RSS订阅频道2005年到2011年期间的新闻存档进行抽取和处理的。总共收录了74万篇不同类型的新闻,保存形式为UTF-8格式的纯文本信息,文件大小为2.19 GB。该数据集对类别进行了调整和优化,包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐共14个可选分类。

本实验基于此数据集,从中抽取了10个分类,包括体育、财经、房产、家居、教育、科技、时尚、时政、游戏和娱乐。从每个分类中随机选取了20000条数据,构建了一个包含20万条新闻文本的实验子集。其中,训练集包含180000条数据,验证集和测试集各包含10000条数据。

THUCNews中文新闻标题数据集:20万条新闻文本用于实验

原文地址: https://www.cveoy.top/t/topic/oXWd 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录