视觉与语言中的偏见检测数据集：PHASE 注释和分析

视觉与语言是一组处理图像和文本格式数据的任务。这包括图像字幕[50]、视觉问答[4]或视觉定位[36]。在社会偏见方面，Burns等人[11]表明标准 MSCOCO 数据集[13]中的字幕存在性别不平衡，并提出了一个均衡器来减轻这个问题。此后，不仅在图像字幕[2,22,46,51]中发现了性别偏见，而且在文本到图像搜索[54]、预训练的视觉与语言模型[5,44]、多模态嵌入[40]、视觉问答[21]和多模态数据集[9]中也发现了性别偏见。Zhao等人[60]表明性别不是唯一受到偏见影响的属性；肤色也会导致字幕中的差异。由于问题远未解决，研究和减轻模型的不同人口统计表征的工具至关重要。

用于研究视觉与语言任务中的社会偏见的注释数据很少。没有足够的数据，分析和提出克服问题的解决方案是不可行的。之前的工作[60,61]使用 MSCOCO 数据集[30]的样本进行了注释，注释了图像中人物的感知属性。首先，[61]使用字幕中的性别词自动为图像分配了二进制性别类别，排除了字幕中包含多个性别的图像。或者，[60]通过众包对性别和肤色进行了注释。在这种情况下，注释是在个人级别进行的，而不是整个图像，允许具有多个人的图像有多个注释。为了增加除了 MSCOCO 之外的图像的多样性和除了性别和肤色之外的属性，我们使用 GCC 对 PHASE 进行了六个属性的注释，其中包括四个人口统计属性和两个上下文属性。带有偏见检测注释的图像文本数据集总结在表 1 中。