自然语言常用的数据集并举例说明
- MNIST手写数字识别数据集:包含60,000个训练图像和10,000个测试图像,每张图像都是28x28像素的灰度图像,用于图像分类任务。
- COCO数据集:包含超过33万张图像,其中包括超过200,000个物体标注和80个对象类别,用于对象检测、分割、关键点检测等任务。
- IMDb电影评论数据集:包含50,000个电影评论,其中25,000个用于训练,25,000个用于测试,用于情感分析任务。
- Penn Treebank数据集:包含超过400万个单词,用于自然语言处理中的语言建模任务。
- SQuAD数据集:包含10万个问题和对应的答案,用于问答系统的评估和开发。
原文地址: http://www.cveoy.top/t/topic/4Bc 著作权归作者所有。请勿转载和采集!