视觉与语言任务中的社会偏见：挑战与解决方案

视觉与语言领域涵盖了一系列处理图像和文本数据的任务，例如图像描述[50]、视觉问答[4]和视觉定位[36]。然而，这些任务也面临着社会偏见的挑战。

现有数据集和模型中的偏见

Burns 等人 [11] 的研究表明，常用的 MSCOCO 数据集 [13] 中的图像描述存在性别不平衡问题，他们提出了一种平衡器来缓解这个问题。然而，性别偏见不仅存在于图像描述中 [2,22,46,51]，还存在于文本到图像搜索 [54]、预训练的视觉与语言模型 [5,44]、多模态嵌入 [40]、视觉问答 [21] 和多模态数据集 [9] 中。Zhao 等人 [60] 的研究更进一步指出，除了性别，肤色也会导致描述结果的差异。

偏见检测数据集的挑战

用于研究视觉与语言任务中社会偏见的注释数据集非常有限。缺乏足够的数据使得分析和提出解决方案变得十分困难。之前的研究 [60,61] 使用 MSCOCO 数据集 [30] 中的样本，并对图像中人物的感知属性进行了注释。其中 [61] 通过标题中的性别词自动为图像分配二元性别类别，但排除了标题中包含多个性别的图像。而 [60] 则采用众包的方式对性别和肤色进行注释，注释在个人级别进行，允许包含多人的图像拥有多个注释。

PHASE 数据集：更广泛的属性注释

为了增加图像的多样性，并涵盖性别和肤色以外的属性，我们使用 GCC 中的 PHASE 数据集进行了六个属性的注释，包括四个人口属性和两个背景属性。表1总结了带有偏见检测注释的图像文本数据集。

PHASE 注释的挑战与缓解措施

手动注释图像中的人口属性面临诸多挑战 [3]。例如，外部观察者感知到的属性可能与被注释者的真实属性不符。此外，一些属性的定义，如与种族或族裔相关的属性，本身就具有模糊性和主观性 [20]。

为了缓解这些问题，我们采取了以下措施：

向注释者和潜在用户明确说明，注释不代表真实属性，而是感知属性。2. 通过以下方式减轻主观性带来的影响： * 对每个样本收集多个注释。 * 使用两个与种族相关的属性，而不是一个。 * 共享匿名注释者的属性，以揭示注释者背景与其感知之间的潜在关联。

总结

解决视觉与语言任务中的社会偏见问题至关重要。PHASE 数据集为研究和缓解偏见提供了一个有价值的资源。我们相信，通过持续的努力，我们可以构建更加公平和包容的视觉与语言系统。