THUCNews中文新闻标题数据集:20万条新闻文本,助力文本分类研究
本文使用由清华大学整理和发布的THUCNews中文新闻标题作为实验数据集。该数据集是基于新浪新闻RSS订阅频道2005~2011年范围内新闻存档抽离处理得到的,共收录74万篇不同类型的新闻,文件大小为2.19 GB,保存形式为UTF-8格式的纯文本信息。该数据集包含14个分类,包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐,可以根据需要进行选择。
本实验从中选择了10个分类,分别是体育、财经、房产、家居、教育、科技、时尚、时政、游戏和娱乐。从每个分类中随机选取20000条数据,共计20万条新闻文本,其中训练集包含180000条数据,验证集包含10000条数据,测试集也包含10000条数据。这一实验子集可以为相关领域的研究提供重要的实验数据。
原文地址: https://www.cveoy.top/t/topic/oXV2 著作权归作者所有。请勿转载和采集!