社会偏见研究：大型视觉语言数据集的代表性不足

我们研究了大型且未经筛选的视觉与语言数据集中的社会偏见。具体而言，我们对GCC数据集的一部分进行了四个人口统计属性和两个情境属性的注释。通过对年龄、性别、肤色、种族、情绪和活动进行注释，我们对数据集的代表性多样性进行了全面分析。我们发现所有六个属性都存在严重的不平衡。与手动注释的数据集（如MSCOCO）相比，GCC在性别和肤色方面存在更大的差距，男性和较浅的肤色被过度代表。此外，我们评估了三个下游任务：图像字幕生成、图像-文本CLIP嵌入和文本-图像生成。在所有任务中，我们发现不同人口类别的图像性能存在差异，突显了资源和解决方案的需求。