克服图像字幕模型中的性别偏见:一项综述

图像字幕模型近年来取得了显著进展,但研究表明,这些模型可能会表现出和放大社会偏见,例如性别偏见。本文将综述图像字幕模型中的性别偏见问题,并重点介绍一些关键研究。

女性也会滑雪板:克服字幕模型中的偏见

Burns, Hendricks, Saenko, Darrell 和 Rohrbach 在 ECCV 2018 年发表的论文 '女性也会滑雪板:克服字幕模型中的偏见' 中,深入探讨了图像字幕模型中的性别偏见问题。作者发现,模型通常会将进行滑雪板等运动的人默认描述为男性,即使图像中的人物是女性。这种偏见反映了训练数据中的不平衡,以及模型在学习过程中对刻板印象的强化。

为了解决这个问题,作者提出了一个包含性别信息的数据集,并训练了一个能够生成更公平字幕的模型。这项工作强调了识别和减轻图像字幕模型中社会偏见的重要性。

相关数据集和模型

除了上述论文,还有其他一些重要的数据集和模型与图像字幕和偏见相关:

  • ActivityNet: 由 Heilbron, Escorcia, Ghanem 和 Niebles 在 CVPR 2015 年提出的 ActivityNet 是一个用于人类活动理解的大规模视频基准数据集。它可以用来研究和开发更准确地识别和描述人类活动的模型,包括那些可能存在性别偏见的活动。* Microsoft COCO Captions: Chen, Fang, Lin, Vedantam, Gupta, Dollar 和 Zitnick 在 arXiv 2015 年发布的 Microsoft COCO Captions 数据集提供了大量的图像及其相应的字幕。这是一个广泛用于训练和评估图像字幕模型的基准数据集,同时也为研究字幕中的偏见提供了宝贵资源。* Uniter: Chen, Li, Yu, El Kholy, Ahmed, Gan, Cheng 和 Liu 在 ECCV 2020 年提出的 Uniter 是一种通用的图像文本表示学习模型。它学习图像和文本之间的联合表示,可用于各种任务,包括图像字幕。Uniter 在多个基准测试中取得了最先进的结果,并有可能用于开发更公平和更少偏见的图像字幕模型。

处理主观注释中的分歧

Mostafazadeh Davani, Díaz 和 Prabhakaran 在 Transactions of the Association for Computational Linguistics (TACL) 2022 年发表的论文 '处理分歧:超越多数投票在主观注释中' 讨论了主观注释中的分歧问题。作者认为,简单地采用多数投票可能会掩盖数据中的细微差异和潜在的偏见。他们提出了一个框架,用于分析和解释注释者之间的分歧,这对于开发更公平和更准确的图像字幕模型至关重要。

结论

图像字幕模型中的性别偏见是一个重要问题,需要进一步研究。通过开发更具包容性的数据集、设计更公平的模型以及采用更细致的评估方法,我们可以努力创建能够准确反映世界多样性的图像字幕模

克服图像字幕模型中的性别偏见:一项综述

原文地址: https://www.cveoy.top/t/topic/fBDt 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录