THUNCNews 数据集:中文文本分类的宝贵资源
THUNCNews 数据集是一个用于文本分类的中文新闻数据集,包含了 202,135 篇新闻文章,涵盖了 30 个不同的主题类别,如政治、经济、文化、科技等。这个数据集的来源是 THUCNews 数据集,通过对其进行进一步的筛选和清洗得到的。每篇新闻文章都包含了新闻标题和正文,并且经过了人工标注。该数据集的标签是基于每篇文章的主题而来,每个主题类别都至少有 5000 篇新闻文章。
THUNCNews 数据集的数据规模较大,能够满足大规模深度学习算法的训练需求。同时,该数据集的主题类别也比较丰富,能够满足不同应用场景的需求。此外,该数据集的标注质量较高,能够保证模型的准确性。因此,THUNCNews 数据集是一个非常有价值的中文文本分类数据集,对于中文文本分类的研究和应用具有重要意义。
原文地址: https://www.cveoy.top/t/topic/oXWT 著作权归作者所有。请勿转载和采集!