图像字幕中的偏见与公平性:文献综述

图像字幕模型近年来取得了显著的进展,但研究表明,这些模型可能会反映和放大训练数据中的社会偏见。本文献综述重点介绍了探讨图像字幕中偏见和公平性的关键研究。

1. 了解偏见

Emiel Van Miltenburg在‘Flickr30k数据集中的刻板印象和偏见’(2016)中对流行的Flickr30k数据集进行了深入分析,揭示了其中存在的显著的性别和种族偏见。这项工作强调了在训练数据集中解决偏见问题的必要性,以防止其在下游模型中被放大。

2. 减轻字幕中的性别偏见

唐瑞祥等人在‘减轻字幕系统中的性别偏见’(WWW,2021)中介绍了一种减轻图像字幕模型中性别偏见的新方法。作者提出了一个框架,通过解耦视觉和文本表示来解决这个问题,从而减少了生成的字幕中的性别刻板印象。

3. 衡量表征伤害

Angelina Wang等人在‘衡量图像字幕中的表征伤害’(FAccT,2022)中探讨了量化图像字幕系统中表征伤害的挑战。作者提出了一个框架来评估这些伤害,并强调了开发更公平和更少歧视性模型的必要性。

4. 用于偏见检测和缓解的工具

Angelina Wang等人在‘REVISE:衡量和减轻视觉数据集中的偏见的工具’(ECCV,2020)中介绍了REVISE,这是一个用于检测和减轻视觉数据集中偏见的交互式工具。REVISE使研究人员能够识别潜在的偏见,并探索缓解策略,促进更公平的视觉识别模型的开发。

5. 基础模型和评估

  • VL-BERT:魏杰苏等人在‘VL-BERT:通用视觉语言表示的预训练’(ICLR,2019)中介绍了VL-BERT,这是一种用于学习视觉语言表示的预训练模型。VL-BERT为各种视觉语言任务(包括图像字幕)提供了基础,并且可以针对特定数据集进行微调。* 注意力就是一切:Ashish Vaswani等人在‘注意力就是一切’(NeurIPS,2017)中介绍了Transformer架构,它依赖于注意力机制来学习输入数据中的远程依赖关系。Transformer模型,如BERT和GPT,彻底改变了自然语言处理领域,并被广泛应用于图像字幕模型。* Kappa统计:Anthony J Viera和Joanne M Garrett在‘理解观察者间的一致性:kappa统计量’(2005)中讨论了kappa统计量,这是一种用于评估定类数据中观察者间一致性的统计指标。kappa统计量可以用于评估图像字幕任务中不同标注者之间的一致性,从而深入了解标注者主观性对模型性能的潜在影响。* 展示和讲述:Oriol Vinyals等人在‘展示和讲述:一个神经图像字幕生成器’(CVPR,2015)中介绍了一种基于深度学习的图像字幕生成器。这项开创性的工作为使用神经网络生成图像字幕铺平了道路,并引发了该领域的进一步研究。

结论

解决图像字幕中的偏见和公平性问题对于开发可靠和负责任的AI系统至关重要。本综述中回顾的研究强调了识别和缓解偏见的必要性,以及开发更具包容性和公平性的图像字幕模型。随着该领域的不断发展,解决这些问题仍然至关重要,以确保这些技术对所有人都有益。

图像字幕中的偏见与公平性:文献综述

原文地址: https://www.cveoy.top/t/topic/fBER 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录