图像字幕中的性别偏见：一项全面调查

摘要

图像字幕模型在近年来取得了显著的进展，但在很大程度上依赖于包含社会偏见的庞大数据集进行训练。这导致模型延续并可能放大这些偏见，导致对性别角色的刻板印象，例如将女性与烹饪或家务联系在一起，而将男性与体育或专业工作联系在一起。本调查深入探讨了图像字幕模型中性别偏见的根源，从数据集中的社会偏见到模型架构和训练过程中的放大效应。我们回顾了量化和减轻这些偏见的最新方法，包括数据集过滤和平衡、对抗训练和因果推理技术。此外，我们还强调了该领域未来研究的方向，例如开发更全面和包容的评估指标，以及设计可以减轻社会偏见的公平感知模型架构。

1. 引言

图像字幕作为计算机视觉和自然语言处理交叉领域的一个重要课题，近年来受到越来越多的关注。其目标是为给定的图像生成自然语言描述，这需要对视觉内容和语言表达之间复杂关系的深刻理解。深度学习的出现，特别是编码器-解码器架构的出现，极大地推动了图像字幕模型的性能 [30, 37]。

然而，尽管取得了这些进步，但图像字幕模型在很大程度上依赖于包含社会偏见的庞大数据集进行训练 [1, 8, 9, 16, 27]。这些偏见源于各种因素，包括数据收集过程、文化规范和社会不平等。因此，在这些有偏见的数据集上训练的模型往往会延续甚至放大这些偏见，导致对性别角色的刻板印象和歧视性输出 [6, 11, 22, 60]。例如，一个模型可能会错误地将一个站在厨房里的女人描述成一名'厨师'，而将一个站在同一个厨房里的男人描述成一名'厨师'。这种偏见强化了有害的刻板印象，并可能导致现实世界中的歧视。

本调查全面概述了图像字幕模型中的性别偏见问题。我们的目标是：（1）深入研究这些偏见的根源，（2）回顾量化和减轻这些偏见的最新方法，以及（3）确定未来研究的关键方向。

2. 图像字幕中的性别偏见来源

图像字幕中的性别偏见可以追溯到几个相互关联的因素：

**数据集偏见：*许多广泛使用的图像字幕数据集，例如MS-COCO [30] 和Flickr30k [36]，在其视觉内容和文本描述中都表现出显著的性别偏见 [9, 21, 40, 47]。这种偏见往往反映了社会规范和刻板印象，例如将女性与某些活动或职业联系在一起，而将男性与其他活动或职业联系在一起。 **模型偏见：*即使训练数据相对平衡，图像字幕模型也会在学习过程中引入或放大偏见。这是因为模型可以利用训练数据中的虚假相关性，例如将女性与某些颜色或物体联系在一起，从而导致有偏见的预测，即使在面对新的、未见过的数据时也是如此。 **评估偏见：**用于评估图像字幕模型性能的指标，例如BLEU [34] 或METEOR [12]，主要是基于词汇重叠，并且无法捕捉到更细微的偏见形式。因此，即使模型生成流畅且语法正确的描述，也可能包含微妙但有害的刻板印象。

3. 量化和减轻性别偏见

已经提出了各种方法来量化和减轻图像字幕模型中的性别偏见。这些方法可以大致分为以下几类：

3.1 数据集相关方法

**数据集过滤：*这种方法包括从训练数据集中识别和删除有偏见的图像或描述 [52, 58]。例如，[58] 提出了一种过滤 ImageNet 数据集的方法，以减少与某些人口群体相关的负面偏见。 **数据集平衡：*另一种方法是通过添加更多代表性不足的群体或重新采样现有数据来平衡训练数据的分布 [43, 56]。例如，Conceptual Captions 数据集 [43] 旨在通过从网络上收集大量图像-描述对来提供更平衡的性别和种族表征。 **数据增强：**数据增强技术可以通过创建现有数据的修改版本来帮助减轻偏见。例如，可以修改图像以包括更多样化的人群，或者可以重新表述文本描述以消除性别歧视性语言 [2]。

3.2 模型相关方法

**对抗训练：*这种方法包括训练一个模型来同时生成准确的描述并最小化描述中编码的性别信息 [5, 23, 46]。这个目标是通过引入一个对抗性损失来实现的，该损失会惩罚模型对性别做出预测。 **因果推理：*因果推理方法旨在通过明确建模性别与其他变量之间的因果关系来解决偏见的根源 [23, 53]。例如，[23] 提出了一种基于因果推理的图像字幕方法，该方法可以解开性别与生成描述中的其他属性之间的联系。 **公平感知模型架构：**另一种方法是设计明确考虑到公平性的模型架构 [61]。这可以通过在模型的损失函数中加入公平约束或通过使用可以学习解耦表征的技术来实现。

4. 挑战和未来方向

尽管在理解和减轻图像字幕模型中的性别偏见方面取得了进展，但仍有几个挑战需要解决：

**更全面的评估指标：*需要开发更全面的评估指标来捕捉更微妙的偏见形式，超越词汇重叠 [51]。这些指标应考虑生成的描述与社会和文化背景的一致性，以及它们如何延续或挑战刻板印象。 **上下文感知偏见检测：*许多现有的偏见检测方法依赖于简单的启发式方法或预定义的规则，这些方法可能无法捕捉到更细微或与上下文相关的偏见形式 [20]。需要开发更复杂的方法，这些方法可以考虑生成的描述的更广泛的上下文，包括图像内容、语言风格和目标受众。 **可解释和可操作的偏见减轻：*虽然许多偏见减轻技术已被证明可以有效地减少某些偏见指标，但它们通常缺乏透明度，并且难以解释它们如何实现其目标 [15]。开发更具可解释性和可操作性的偏见减轻技术对于建立信任并确保这些方法不会产生意外后果至关重要。 **跨语言和文化的泛化：**大多数关于图像字幕中性别偏见的研究都集中在英语数据集上。需要更多地研究不同语言和文化背景下的偏见表现和减轻策略，因为文化规范和社会偏见会极大地影响数据和模型中的偏见表现形式。

5. 结论

图像字幕模型中的性别偏见是一个关键问题，因为它有可能延续有害的刻板印象并加剧社会不平等。本调查深入探讨了这些偏见的根源，回顾了量化和减轻这些偏见的最新方法，并强调了该领域未来研究的方向。通过解决这些挑战，我们可以朝着开发更公平、更负责任的图像字幕模型迈进，这些模型可以为所有人提供准确和公正的图像描