视觉与语言任务中的社会偏见:挑战与解决方案
视觉与语言任务中的社会偏见:挑战与解决方案
视觉与语言领域涵盖了一系列处理图像和文本数据的任务,例如图像描述[50]、视觉问答[4]和视觉定位[36]。然而,这些任务也面临着社会偏见的挑战。
现有数据集和模型中的偏见
Burns 等人 [11] 的研究表明,常用的 MSCOCO 数据集 [13] 中的图像描述存在性别不平衡问题,他们提出了一种平衡器来缓解这个问题。然而,性别偏见不仅存在于图像描述中 [2,22,46,51],还存在于文本到图像搜索 [54]、预训练的视觉与语言模型 [5,44]、多模态嵌入 [40]、视觉问答 [21] 和多模态数据集 [9] 中。Zhao 等人 [60] 的研究更进一步指出,除了性别,肤色也会导致描述结果的差异。
偏见检测数据集的挑战
用于研究视觉与语言任务中社会偏见的注释数据集非常有限。缺乏足够的数据使得分析和提出解决方案变得十分困难。之前的研究 [60,61] 使用 MSCOCO 数据集 [30] 中的样本,并对图像中人物的感知属性进行了注释。其中 [61] 通过标题中的性别词自动为图像分配二元性别类别,但排除了标题中包含多个性别的图像。而 [60] 则采用众包的方式对性别和肤色进行注释,注释在个人级别进行,允许包含多人的图像拥有多个注释。
PHASE 数据集:更广泛的属性注释
为了增加图像的多样性,并涵盖性别和肤色以外的属性,我们使用 GCC 中的 PHASE 数据集进行了六个属性的注释,包括四个人口属性和两个背景属性。表1总结了带有偏见检测注释的图像文本数据集。
PHASE 注释的挑战与缓解措施
手动注释图像中的人口属性面临诸多挑战 [3]。例如,外部观察者感知到的属性可能与被注释者的真实属性不符。此外,一些属性的定义,如与种族或族裔相关的属性,本身就具有模糊性和主观性 [20]。
为了缓解这些问题,我们采取了以下措施:
- 向注释者和潜在用户明确说明,注释不代表真实属性,而是感知属性。2. 通过以下方式减轻主观性带来的影响: * 对每个样本收集多个注释。 * 使用两个与种族相关的属性,而不是一个。 * 共享匿名注释者的属性,以揭示注释者背景与其感知之间的潜在关联。
总结
解决视觉与语言任务中的社会偏见问题至关重要。PHASE 数据集为研究和缓解偏见提供了一个有价值的资源。我们相信,通过持续的努力,我们可以构建更加公平和包容的视觉与语言系统。
原文地址: https://www.cveoy.top/t/topic/fBng 著作权归作者所有。请勿转载和采集!