图像字幕中的偏见与公平性：文献综述

图像字幕模型近年来取得了显著的进展，但研究表明，这些模型可能会反映和放大训练数据中的社会偏见。本文献综述重点介绍了探讨图像字幕中偏见和公平性的关键研究。

1. 了解偏见

Emiel Van Miltenburg在‘Flickr30k数据集中的刻板印象和偏见’（2016）中对流行的Flickr30k数据集进行了深入分析，揭示了其中存在的显著的性别和种族偏见。这项工作强调了在训练数据集中解决偏见问题的必要性，以防止其在下游模型中被放大。

2. 减轻字幕中的性别偏见

唐瑞祥等人在‘减轻字幕系统中的性别偏见’（WWW，2021）中介绍了一种减轻图像字幕模型中性别偏见的新方法。作者提出了一个框架，通过解耦视觉和文本表示来解决这个问题，从而减少了生成的字幕中的性别刻板印象。

3. 衡量表征伤害

Angelina Wang等人在‘衡量图像字幕中的表征伤害’（FAccT，2022）中探讨了量化图像字幕系统中表征伤害的挑战。作者提出了一个框架来评估这些伤害，并强调了开发更公平和更少歧视性模型的必要性。

4. 用于偏见检测和缓解的工具

Angelina Wang等人在‘REVISE：衡量和减轻视觉数据集中的偏见的工具’（ECCV，2020）中介绍了REVISE，这是一个用于检测和减轻视觉数据集中偏见的交互式工具。REVISE使研究人员能够识别潜在的偏见，并探索缓解策略，促进更公平的视觉识别模型的开发。

5. 基础模型和评估

VL-BERT：魏杰苏等人在‘VL-BERT：通用视觉语言表示的预训练’（ICLR，2019）中介绍了VL-BERT，这是一种用于学习视觉语言表示的预训练模型。VL-BERT为各种视觉语言任务（包括图像字幕）提供了基础，并且可以针对特定数据集进行微调。* 注意力就是一切：Ashish Vaswani等人在‘注意力就是一切’（NeurIPS，2017）中介绍了Transformer架构，它依赖于注意力机制来学习输入数据中的远程依赖关系。Transformer模型，如BERT和GPT，彻底改变了自然语言处理领域，并被广泛应用于图像字幕模型。* Kappa统计：Anthony J Viera和Joanne M Garrett在‘理解观察者间的一致性：kappa统计量’（2005）中讨论了kappa统计量，这是一种用于评估定类数据中观察者间一致性的统计指标。kappa统计量可以用于评估图像字幕任务中不同标注者之间的一致性，从而深入了解标注者主观性对模型性能的潜在影响。* 展示和讲述：Oriol Vinyals等人在‘展示和讲述：一个神经图像字幕生成器’（CVPR，2015）中介绍了一种基于深度学习的图像字幕生成器。这项开创性的工作为使用神经网络生成图像字幕铺平了道路，并引发了该领域的进一步研究。

结论

解决图像字幕中的偏见和公平性问题对于开发可靠和负责任的AI系统至关重要。本综述中回顾的研究强调了识别和缓解偏见的必要性，以及开发更具包容性和公平性的图像字幕模型。随着该领域的不断发展，解决这些问题仍然至关重要，以确保这些技术对所有人都有益。