图像字幕模型中的社会偏见放大:基于GCC数据集的案例研究

引言

图像字幕是视觉和语言研究中的一个重要任务,其目标是生成描述图像内容的自然语言句子。然而,最近的研究表明,训练在MSCOCO等数据集上的图像字幕模型会表现出性别和肤色方面的偏见。为了进一步研究这个问题,我们评估了在GCC数据集上训练的两种最新模型OFA和ClipCap,以了解它们在四个人口统计属性(性别、年龄、肤色和种族)方面的社会偏见和偏见放大。

方法

我们使用LICM和LIC指标来评估模型的社会偏见和偏见放大。LICM对应于在屏蔽暴露类别的单词后,预测人口属性类别的字幕分类器的准确性。例如,'演员'、'女演员'、'他'、'她'等词语都与性别相关。如果字幕分类器的准确性高于随机机会,这意味着来自不同类别的人的字幕在语义上是不同的。LIC = LICM - LICD通过比较训练在人类字幕上的字幕分类器的准确性(LICD)与模型生成的字幕(LICM)来衡量偏见放大。如果LIC > 0,则生成的字幕比原始字幕更具偏见,并且模型放大了这种偏见。

此外,对于性别属性,我们还计算了错误率,它衡量了性别被错误分类的字幕百分比。错误率只能在生成的字幕中明确提及属性时计算,对于性别是这样,但对于肤色等其他属性则不是。

结果

结果表明,OFA和ClipCap在四个属性上都表现出明显的偏见放大。当在GCC上训练时,除了OFA在肤色方面,这两个模型都放大了与原始数据集相关的偏见。这凸显了包括模型无关方法在内的偏见缓解技术的紧迫性。

具体来说,我们观察到:

  • 在四个属性上,OFA和ClipCap的LICM得分都远高于无偏见的情况。* 除了OFA在肤色方面,这两个模型都放大了与原始数据集相关的偏见。* 年龄是具有最高偏见的属性,无论是在LICM还是LIC指标上,这凸显了在表征公平性中考虑年龄的紧迫性。* 性别和肤色方面的结果也揭示了模型输出中的重要偏见。* 种族方面的大标准差可能是由于较高的类别数(7)和每类样本较少(64)造成的,这使得很难得出可靠的结论。

结论

我们的研究结果表明,图像字幕模型存在着严重的社会偏见放大问题。这凸显了开发能够减轻这些偏见的公平算法的必要性。未来的工作应该探索不同的偏见缓解技术,并评估它们在各种图像字幕任务中的有效性。

关键词: 图像字幕,社会偏见,偏见放大,GCC数据集,OFA,ClipCap,LICM,LIC,错误率,表征公平性

图像字幕模型中的社会偏见放大:基于GCC数据集的案例研究

原文地址: https://www.cveoy.top/t/topic/fBBn 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录