我们研究了大型且未经筛选的视觉与语言数据集中的社会偏见。具体而言,我们对GCC数据集的一部分进行了四个人口统计属性和两个情境属性的注释。通过对年龄、性别、肤色、种族、情绪和活动进行注释,我们对数据集的代表性多样性进行了全面分析。我们发现所有六个属性都存在严重的不平衡。与手动注释的数据集(如MSCOCO)相比,GCC在性别和肤色方面存在更大的差距,男性和较浅的肤色被过度代表。此外,我们评估了三个下游任务:图像字幕生成、图像-文本CLIP嵌入和文本-图像生成。在所有任务中,我们发现不同人口类别的图像性能存在差异,突显了资源和解决方案的需求。

社会偏见研究:大型视觉语言数据集的代表性不足

原文地址: https://www.cveoy.top/t/topic/fBCf 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录