视觉语言模型中的性别偏见研究：数据集、模型和缓解方法

[1] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, et al. Flamingo: 一种用于少样本学习的视觉语言模型. arXiv预印本arXiv:2204.14198, 2022. 1 [2] Jack J Amend, Albatool Wazzan和Richard Souvenir。评估用于自动图像字幕的性别中性训练数据。在大数据国际会议上，2021年。 2 [3] Jerone TA Andrews，Dora Zhao，William Thong，Apostolos Modas，Orestis Papakyriakopoulos，Shruti Nagpal和Alice Xiang。收集以人为中心的图像数据集的伦理考虑。 arXiv预印本arXiv:2302.03629, 2023. 2 [4] Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick和Devi Parikh。 VQA：视觉问题回答。在ICCV，2015年。 2 [5] Hugo Berg，Siobhan Hall，Yash Bhalgat，Hannah Kirk，Aleksandar Shtedritski和Max Bain。用对抗学习消除视觉语言模型中的偏见的提示数组。在AACL-IJCNLP，2022年。 2 [6] Shruti Bhargava和David Forsyth。揭露和纠正图像字幕数据集和模型中的性别偏见。 arXiv预印本arXiv:1912.00578, 2019. 4 [7] Federico Bianchi, Pratyusha Kalluri, Esin Durmus, Faisal Ladhak, Myra Cheng, Debora Nozza, Tatsunori Hashimoto, Dan Jurafsky, James Zou, and Aylin Caliskan. 轻松获取的文本到图像生成会大规模放大人口统计学刻板印象。 arXiv预印本arXiv:2211.03759, 2022. 8 [8] Abeba Birhane和Vinay Uday Prabhu。大型图像数据集：计算机视觉的得不偿失？在WACV，2021年。 1 [9] Abeba Birhane，Vinay Uday Prabhu和Emmanuel Kahembwe。多模态数据集：厌女症、色情和恶意刻板印象。 arXiv预印本arXiv:2110.01963, 2021. 1, 2 [10] Joy Buolamwini和Timnit Gebru。性别阴影：商业性别分类中的交叉准确度差异。在FAccT，2018年。 1 [11] Kaylee Burns，Lisa Anne Hendricks，Kate Saenko，Trevor Darrell和Anna Rohrbach。女性也喜欢滑雪板：克服字幕模型中的偏见。在ECCV，2018年。 2, 6 [12] Fabian Caba Heilbron，Victor Escorcia，Bernard Ghanem和Juan Carlos Niebles。 ActivityNet：一个用于人类活动理解的大规模视频基准。在CVPR，2015年。 3 [13] Xinlei Chen，Hao Fang，Tsung-Yi Lin，Ramakrishna Vedantam，Saurabh Gupta，Piotr Dollar和C Lawrence Zitnick。 Microsoft COCO字幕：数据收集和评估服务器。 arXiv预印本arXiv:1504.00325, 2015. 2 [14] Yen-Chun Chen，Linjie Li，Licheng Yu，Ahmed El Kholy，Faisal Ahmed，Zhe Gan，Yu Cheng和Jingjing Liu。 Uniter：通用图像文本表示学习。在ECCV，2020年。 3 [15] Aida Mostafazadeh Davani，Mark D´ıaz和Vinodkumar Prabhakaran。处理分歧：超越主观注释中的多数投票。 Trans. ACL，2022年。 4 [16] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li和Li Fei-Fei。 ImageNet：一个大型层次图像数据库。在CVPR，2009年。 1 [17] Karan Desai，Gaurav Kaul，Zubin Trivadi Aysola和Justin Johnson。 Redcaps：由人民为人民创建的网络策划图像文本数据。在NeurIPS数据集和基准跟踪中，2021年。 1 [18] Thomas B Fitzpatrick。 I 到 VI 型光敏皮肤类型的有效性和实用性。皮肤病学档案，124（6）：869-871，1988年。 3 [19] J. L. Fleiss。测量许多评分者之间名义量表的协议。心理学公报，76（5）：378-382，1971年。 4 [20] Alex Hanna，Emily Denton，Andrew Smart和Jamila Smith-Loud。算法公平中的批判性种族方法。在FAccT，2020年。 2, 4 [21] Yusuke Hirota，Yuta Nakashima和Noa Garcia。视觉问答数据集中的性别和种族偏见。在FAccT，2022年。 1, 2 [22] Yusuke Hirota，Yuta Nakashima和Noa Garcia。量化图像字幕中的社会偏见放大。在CVPR，2022年。 1, 2, 6 [23] Yusuke Hirota，Yuta Nakashima和Noa Garcia。模型无关的性别去偏图像字幕。在CVPR，2023年。 2, 6 [24] Jonathan Ho，Ajay Jain和Pieter Abbeel。去噪扩散概率模型。 NeurIPS，2020年。 7 [25] Glenn Jocher，Ayush Chaurasia，Alex Stoken，Jirka Borovec，NanoCode012，Yonghye Kwon，TaoXie，Kalen Michael，Jiacong Fang，imyhxy，Lorna，Colin Wong，（Zeng Yifu），Abhiram V，Diego Montes，Zhiqiang Wang，Cristi Fati，Jebastin Nadar，Laughing，UnglvKitDe，tkianai，yxNONG，Piotr Skalski，Adam Hogan，Max Strobel，Mrinal Jain，Lorenzo Mammana和xylieong。 ultralytics/yolov5：v6.2 - YOLOv5 分类模型，Apple M1，可重复性，ClearML 和 Deci.ai 集成，2022 年 8 月。 3 [26] Kimmo Karkkainen和Jungseock Joo。 FairFace：用于平衡种族、性别和年龄的面部属性数据集，用于偏见测量和缓解。在WACV，2021年。 3 [27] Ranjay Krishna，Yuke Zhu，Oliver Groth，Justin Johnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al。视觉基因组：使用众包密集图像注释连接语言和视觉。 Trans. IJCV，123（1）：32-73，2017年。 1 [28] Gen Li，N. Duan，Yuejian Fang，Daxin Jiang和M. Zhou。 Unicoder-VL：通过跨模态预训练实现视觉和语言的通用编码器。在AAAI，2020年。 3 [29] Xiujun Li，Xi Yin，Chunyuan Li，Pengchuan Zhang，Xiaowei Hu，Lei Zhang，Lijuan Wang，Houdong Hu，Li Dong，Furu Wei，et al。 OSCAR：面向视觉语言任务的对象语义对齐预训练。在ECCV，2020年。 3 [30] Tsung-Yi Lin，Michael Maire，Serge Belongie，James Hays，Pietro Perona，Deva Ramanan，Piotr Dollar和C Lawrence Zitnick。 Microsoft COCO：上下文中的常见对象。在 ECCV，2014年。 1, 2 [31] Jiasen Lu，Dhruv Batra，Devi Parikh和Stefan Lee。 ViLBERT：针对视觉和语言任务的预训练任务无关视觉语言表示。 NeurIPS，2019年。 3 [32] Nicole Meister，Dora Zhao，Angelina Wang，Vikram V Ramaswamy，Ruth Fong和Olga Russakovsky。视觉数据集中的性别伪影。 arXiv预印本arXiv:2206.09191, 2022. 1 [33] Ron Mokady，Amir Hertz和Amit H Bermano。 ClipCap：用于图像字幕的 Clip 前缀。 arXiv预印本arXiv:2111.09734, 2021. 6 [34] Jahna Otterbacher，Pınar Barlas，Styliani Kleanthous和Kyriakos Kyriakou。我们如何谈论其他人？自然语言图像描述中的群体（不）公平。在AAAI HCOMP，2019年。 7 [35] E Ashby Plant，Janet Shibley Hyde，Dacher Keltner和Patricia G Devine。情绪的性别刻板印象。女性季刊心理学，24（1）：81-92，2000年。 5 [36] Bryan A Plummer，Liwei Wang，Chris M Cervantes，Juan C Caicedo，Julia Hockenmaier和Svetlana Lazebnik。 Flickr30k 实体：为更丰富的图像到句子模型收集区域到短语的对应关系。在ICCV，2015年。 2 [37] Alec Radford，Jong Wook Kim，Chris Hallacy，Aditya Ramesh，Gabriel Goh，Sandhini Agarwal，Girish Sastry，Amanda Askell，Pamela Mishkin，Jack Clark，et al。从自然语言监督中学习可迁移视觉模型。在ICML，2021年。 1, 6 [38] Aditya Ramesh，Prafulla Dhariwal，Alex Nichol，Casey Chu和Mark Chen。使用 CLIP 潜伏变量的层次文本条件图像生成。 arXiv预印本arXiv:2204.06125, 2022. 1 [39] Robin Rombach，Andreas Blattmann，Dominik Lorenz，Patrick Esser和Bjorn Ommer。使用潜在扩散模型进行高分辨率图像合成。在CVPR，2022年。 1, 7, 8 [40] Candace Ross，Boris Katz和Andrei Barbu。测量基于语境的视觉和语言嵌入中的社会偏见。在NAACL，2021年。 1, 2 [41] Chitwan Saharia，William Chan，Saurabh Saxena，Lala Li，Jay Whang，Emily Denton，Seyed Kamyar Seyed Ghasemipour，Burcu Karagol Ayan，S Sara Mahdavi，Rapha Gontijo Lopes，et al。具有深度语言理解能力的光现实文本到图像扩散模型。在NeurIPS，2022年。 1 [42] Christoph Schuhmann，Robert Kaczmarczyk，Aran Komatsuzaki，Aarush Katta，Richard Vencu，Romain Beaumont，Jenia Jitsev，Theo Coombes和Clayton Mullis。 LAION400M：CLIP 过滤的 4 亿图像文本对的开放数据集。在NeurIPS 工作坊 Datacentric AI 中，2021年。 1 [43] Piyush Sharma，Nan Ding，Sebastian Goodman和Radu Soricut。概念字幕：一个干净的、超词化的、用于自动图像字幕的图像替代文本数据集。在ACL，2018年。 1, 2, 3 [44] Tejas Srinivasan和Yonatan Bisk。最坏的情况：预训练的视觉和语言模型中的偏见加剧。在性别偏见自然语言处理研讨会上，2022年。 2 [45] Weijie Su，Xizhou Zhu，Yue Cao，Bin Li，Lewei Lu，Furu Wei和Jifeng Dai。 VL-BERT：通用视觉语言表示的预训练。在ICLR，2019年。 3 [46] Ruixiang Tang，Mengnan Du，Yuening Li，Zirui Liu，Na Zou和Xia Hu。缓解字幕系统中的性别偏见。在WWW，2021年。 2 [47] Emiel Van Miltenburg。 Flickr30k 数据集中的刻板印象和偏见。在多模态语料库研讨会上，2016年。 7 [48] Ashish Vaswani，Noam Shazeer，Niki Parmar，Jakob Uszkoreit，Llion Jones，Aidan N Gomez，Łukasz Kaiser和Illia Polosukhin。注意力是你所需要的全部。在NeurIPS，2017年。 6 [49] Anthony J Viera，Joanne M Garrett，et al。了解观察者间一致性：kappa 统计量。家庭医学，37（5）：360-363，2005年。 4 [50] Oriol Vinyals，Alexander Toshev，Samy Bengio和Dumitru Erhan。展示和讲述：一种神经图像字幕生成器。在CVPR，2015年。 2 [51] Angelina Wang，Solon Barocas，Kristen Laird和Hanna Wallach。衡量图像字幕中的表示性伤害。在FAccT，2022年。 2 [52] Angelina Wang，Arvind Narayanan和Olga Russakovsky。修正：一个用于衡量和减轻视觉数据集偏差的工具。在ECCV，2020年。 1 [53] Angelina Wang和Olga Russakovsky。方向性偏见放大。在ICML，2021年。 1 [54] Jialu Wang，Yang Liu和Xin Wang。性别中性查询真的是性别中性的吗？减轻图像搜索中的性别偏见。在EMNLP，2021年。 2 [55] Peng Wang，An Yang，Rui Men，Junyang Lin，Shuai Bai，Zhikang Li，Jianxin Ma，Chang Zhou，Jingren Zhou和Hongxia Yang。 OFA：通过简单的序列到序列学习框架统一架构、任务和模态。在ICML，2022年。 6 [56] Tianlu Wang，Jieyu Zhao，Mark Yatskar，Kai-Wei Chang和Vicente Ordonez。平衡的数据集是不够的：估计和减轻深度图像表示中的性别偏见。在ICCV，2019年。 1 [57] Laura Weidinger，Jonathan Uesato，Maribeth Rauh，Conor Griffin，Po-Sen Huang，John Mellor，Amelia Glaese，Myra Cheng，Borja Balle，Atoosa Kasirzadeh，et al。语言模型带来的风险分类。在FAccT，2022年。 1 [58] Kaiyu Yang，Klint Qinami，Li Fei-Fei，Jia Deng和Olga Russakovsky。迈向更公平的数据集：过滤和平衡 ImageNet 层次结构中人物子树的分布。在FAccT，2020年。 1 [59] Fei Yu，Jiji Tang，Weichong Yin，Yu Sun，Hao Tian，Hua Wu和Haifeng Wang。 Ernie-ViL：通过场景图增强知识的视觉语言表示。在AAAI，2021年。 3 [60] Dora Zhao，Angelina Wang和Olga Russakovsky。理解和评估图像字幕中的种族偏见。在ICCV，2021年。 1, 2, 3, 5, 6, 7 [61] Jieyu Zhao，Tianlu Wang，Mark Yatskar，Vicente Ordonez和Kai-Wei Chang。男性也喜欢购物：使用语料库级约束减少性别偏见放大。在EMNLP，2017年。 1, 2