视觉与语言是一组处理图像和文本格式数据的任务。这包括图像字幕[50]、视觉问答[4]或视觉定位[36]。在社会偏见方面,Burns等人[11]表明标准 MSCOCO 数据集[13]中的字幕存在性别不平衡,并提出了一个均衡器来减轻这个问题。此后,不仅在图像字幕[2,22,46,51]中发现了性别偏见,而且在文本到图像搜索[54]、预训练的视觉与语言模型[5,44]、多模态嵌入[40]、视觉问答[21]和多模态数据集[9]中也发现了性别偏见。Zhao等人[60]表明性别不是唯一受到偏见影响的属性;肤色也会导致字幕中的差异。由于问题远未解决,研究和减轻模型的不同人口统计表征的工具至关重要。

用于研究视觉与语言任务中的社会偏见的注释数据很少。没有足够的数据,分析和提出克服问题的解决方案是不可行的。之前的工作[60,61]使用 MSCOCO 数据集[30]的样本进行了注释,注释了图像中人物的感知属性。首先,[61]使用字幕中的性别词自动为图像分配了二进制性别类别,排除了字幕中包含多个性别的图像。或者,[60]通过众包对性别和肤色进行了注释。在这种情况下,注释是在个人级别进行的,而不是整个图像,允许具有多个人的图像有多个注释。为了增加除了 MSCOCO 之外的图像的多样性和除了性别和肤色之外的属性,我们使用 GCC 对 PHASE 进行了六个属性的注释,其中包括四个人口统计属性和两个上下文属性。带有偏见检测注释的图像文本数据集总结在表 1 中。

视觉与语言中的偏见检测数据集:PHASE 注释和分析

原文地址: https://www.cveoy.top/t/topic/fBnk 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录