视觉语言模型中的性别偏差：数据集和模型的评估与纠正

[1] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds 等。'Flamingo: a visual language model for few-shot learning'。arXiv 预印本 arXiv:2204.14198，2022 年。1 [2] Jack J Amend, Albatool Wazzan 和 Richard Souvenir。'Evaluating gender-neutral training data for automated image captioning'。在国际大数据会议上，2021 年。2 [3] Jerone TA Andrews，Dora Zhao，William Thong，Apostolos Modas，Orestis Papakyriakopoulos，Shruti Nagpal 和 Alice Xiang。'Ethical considerations for collecting human-centric image datasets'。arXiv 预印本 arXiv:2302.03629，2023 年。2 [4] Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick 和 Devi Parikh。'VQA: Visual question answering'。在 ICCV 上，2015 年。2 [5] Hugo Berg，Siobhan Hall，Yash Bhalgat，Hannah Kirk，Aleksandar Shtedritski 和 Max Bain。'A prompt array keeps the bias away: Debiasing vision-language models with adversarial learning'。在 AACL-IJCNLP 上，2022 年。2 [6] Shruti Bhargava 和 David Forsyth。'Exposing and correcting the gender bias in image captioning datasets and models'。arXiv 预印本 arXiv:1912.00578，2019 年。4 [7] Federico Bianchi, Pratyusha Kalluri, Esin Durmus, Faisal Ladhak, Myra Cheng, Debora Nozza, Tatsunori Hashimoto, Dan Jurafsky, James Zou, 和 Aylin Caliskan。'Easily accessible text-to-image generation amplifies demographic stereotypes at large scale'。arXiv 预印本 arXiv:2211.03759，2022 年。8 [8] Abeba Birhane 和 Vinay Uday Prabhu。'Large image datasets: A pyrrhic win for computer vision?'。在 WACV 上，2021 年。1 [9] Abeba Birhane，Vinay Uday Prabhu 和 Emmanuel Kahembwe。'Multimodal datasets: Misogyny, pornography, and malignant stereotypes'。arXiv 预印本 arXiv:2110.01963，2021 年。1, 2 [10] Joy Buolamwini 和 Timnit Gebru。'Gender shades: Intersectional accuracy disparities in commercial gender classification'。在 FAccT 上，2018 年。1 [11] Kaylee Burns, Lisa Anne Hendricks, Kate Saenko, Trevor Darrell, 和 Anna Rohrbach。'Women also snowboard: Overcoming bias in captioning models'。在 ECCV 上，2018 年。2, 6 [12] Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, 和 Juan Carlos Niebles。'ActivityNet: A large-scale video benchmark for human activity understanding'。在 CVPR 上，2015 年。3 [13] Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollar, 和 C Lawrence Zitnick。'Microsoft COCO captions: Data collection and evaluation server'。arXiv 预印本 arXiv:1504.00325，2015 年。2 [14] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, 和 Jingjing Liu。'Uniter: Universal image-text representation learning'。在 ECCV 上，2020 年。3 [15] Aida Mostafazadeh Davani, Mark D´ıaz, 和 Vinodkumar Prabhakaran。'Dealing with disagreements: Looking beyond the majority vote in subjective annotations'。Trans. ACL，2022 年。4 [16] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, 和 Li Fei-Fei。'ImageNet: A large-scale hierarchical image database'。在 CVPR 上，2009 年。1 [17] Karan Desai, Gaurav Kaul, Zubin Trivadi Aysola, 和 Justin Johnson。'Redcaps: Web-curated image-text data created by the people, for the people'。在 NeurIPS Datasets and Benchmarks Track 上，2021 年。1 [18] Thomas B Fitzpatrick。'The validity and practicality of sunreactive skin types I through VI'。Archives of dermatology，124(6):869–871，1988 年。3 [19] J. L. Fleiss。'Measuring nominal scale agreement among many raters'。Psychological Bulletin，76(5):378 – 382，1971 年。4 [20] Alex Hanna, Emily Denton, Andrew Smart, 和 Jamila Smith-Loud。'Towards a critical race methodology in algorithmic fairness'。在 FAccT 上，2020 年。2, 4 [21] Yusuke Hirota, Yuta Nakashima, 和 Noa Garcia。'Gender and racial bias in visual question answering datasets'。在 FAccT 上，2022 年。1, 2 [22] Yusuke Hirota, Yuta Nakashima, 和 Noa Garcia。'Quantifying societal bias amplification in image captioning'。在 CVPR 上，2022 年。1, 2, 6 [23] Yusuke Hirota, Yuta Nakashima, 和 Noa Garcia。'Model-agnostic gender debiased image captioning'。在 CVPR 上，2023 年。2, 6 [24] Jonathan Ho, Ajay Jain, 和 Pieter Abbeel。'Denoising diffusion probabilistic models'。NeurIPS，2020 年。7 [25] Glenn Jocher, Ayush Chaurasia, Alex Stoken, Jirka Borovec, NanoCode012, Yonghye Kwon, TaoXie, Kalen Michael, Jiacong Fang, imyhxy, Lorna, Colin Wong, (Zeng Yifu), Abhiram V, Diego Montes, Zhiqiang Wang, Cristi Fati, Jebastin Nadar, Laughing, UnglvKitDe, tkianai, yxNONG, Piotr Skalski, Adam Hogan, Max Strobel, Mrinal Jain, Lorenzo Mammana, 和 xylieong。'ultralytics/yolov5: v6.2 - YOLOv5 Classification Models, Apple M1, Reproducibility, ClearML and Deci.ai integrations'。Aug. 2022。3 [26] Kimmo Karkkainen 和 Jungseock Joo。'FairFace: Face attribute dataset for balanced race, gender, and age for bias measurement and mitigation'。在 WACV 上，2021 年。3 [27] Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A Shamma 等。'Visual Genome: Connecting language and vision using crowdsourced dense image annotations'。Trans. IJCV，123(1):32–73，2017 年。1 [28] Gen Li, N. Duan, Yuejian Fang, Daxin Jiang, 和 M. Zhou。'Unicoder-VL: A universal encoder for vision and language by cross-modal pre-training'。在 AAAI 上，2020 年。3 [29] Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei 等。'Oscar: Object-semantics aligned pre-training for vision-language tasks'。在 ECCV 上，2020 年。3 [30] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, 和 C Lawrence Zitnick。'Microsoft COCO: Common objects in context'。在 ECCV 上，2014 年。1, 2 [31] Jiasen Lu, Dhruv Batra, Devi Parikh, 和 Stefan Lee。'Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks'。NeurIPS，2019 年。3 [32] Nicole Meister, Dora Zhao, Angelina Wang, Vikram V Ramaswamy, Ruth Fong, 和 Olga Russakovsky。'Gender artifacts in visual datasets'。arXiv 预印本 arXiv:2206.09191，2022 年。1 [33] Ron Mokady, Amir Hertz, 和 Amit H Bermano。'ClipCap: Clip prefix for image captioning'。arXiv 预印本 arXiv:2111.09734，2021 年。6 [34] Jahna Otterbacher, Pınar Barlas, Styliani Kleanthous, 和 Kyriakos Kyriakou。'How do we talk about other people? Group (un) fairness in natural language image descriptions'。在 AAAI HCOMP 上，2019 年。7 [35] E Ashby Plant, Janet Shibley Hyde, Dacher Keltner, 和 Patricia G Devine。'The gender stereotyping of emotions'。Psychology of women quarterly，24(1):81–92，2000 年。5 [36] Bryan A Plummer, Liwei Wang, Chris M Cervantes, Juan C Caicedo, Julia Hockenmaier, 和 Svetlana Lazebnik。'Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models'。在 ICCV 上，2015 年。2 [37] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark 等。'Learning transferable visual models from natural language supervision'。在 ICML 上，2021 年。1, 6 [38] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, 和 Mark Chen。'Hierarchical text-conditional image generation with CLIP latents'。arXiv 预印本 arXiv:2204.06125，2022 年。1 [39] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, 和 Bjorn Ommer。'High-resolution image synthesis with latent diffusion models'。在 CVPR 上，2022 年。1, 7, 8 [40] Candace Ross, Boris Katz, 和 Andrei Barbu。'Measuring social biases in grounded vision and language embeddings'。在 NAACL 上，2021 年。1, 2 [41] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S Sara Mahdavi, Rapha Gontijo Lopes 等。'Photorealistic text-to-image diffusion models with deep language understanding'。在 NeurIPS 上，2022 年。1 [42] Christoph Schuhmann, Robert Kaczmarczyk, Aran Komatsuzaki, Aarush Katta, Richard Vencu, Romain Beaumont, Jenia Jitsev, Theo Coombes, 和 Clayton Mullis。'LAION400M: Open dataset of CLIP-filtered 400 million image-text pairs'。在 NeurIPS Workshop Datacentric AI 上，2021 年。1 [43] Piyush Sharma, Nan Ding, Sebastian Goodman, 和 Radu Soricut。'Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning'。在 ACL 上，2018 年。1, 2, 3 [44] Tejas Srinivasan 和 Yonatan Bisk。'Worst of both worlds: Biases compound in pre-trained vision-and-language models'。在 Workshop on Gender Bias in Natural Language Processing 上，2022 年。2 [45] Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, 和 Jifeng Dai。'VL-BERT: Pre-training of generic visual-linguistic representations'。在 ICLR 上，2019 年。3 [46] Ruixiang Tang, Mengnan Du, Yuening Li, Zirui Liu, Na Zou, 和 Xia Hu。'Mitigating gender bias in captioning systems'。在 WWW 上，2021 年。2 [47] Emiel Van Miltenburg。'Stereotyping and bias in the Flickr30k dataset'。在 Workshop on Multimodal Corpora 上，2016 年。7 [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, 和 Illia Polosukhin。'Attention is all you need'。在 NeurIPS 上，2017 年。6 [49] Anthony J Viera, Joanne M Garrett 等。'Understanding interobserver agreement: the kappa statistic'。Fam med，37(5):360–363，2005 年。4 [50] Oriol Vinyals, Alexander Toshev, Samy Bengio, 和 Dumitru Erhan。'Show and tell: A neural image caption generator'。在 CVPR 上，2015 年。2 [51] Angelina Wang, Solon Barocas, Kristen Laird, 和 Hanna Wallach。'Measuring representational harms in image captioning'。在 FAccT 上，2022 年。2 [52] Angelina Wang, Arvind Narayanan, 和 Olga Russakovsky。'Revise: A tool for measuring and mitigating bias in visual datasets'。在 ECCV 上，2020 年。1 [53] Angelina Wang 和 Olga Russakovsky。'Directional bias amplification'。在 ICML 上，2021 年。1 [54] Jialu Wang, Yang Liu, 和 Xin Wang。'Are gender-neutral queries really gender-neutral? mitigating gender bias in image search'。在 EMNLP 上，2021 年。2 [55] Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou, 和 Hongxia Yang。'OFA: unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework'。在 ICML 上，2022 年。6 [56] Tianlu Wang, Jieyu Zhao, Mark Yatskar, Kai-Wei Chang, 和 Vicente Ordonez。'Balanced datasets are not enough: Estimating and mitigating gender bias in deep image representations'。在 ICCV 上，2019 年。1 [57] Laura Weidinger, Jonathan Uesato, Maribeth Rauh, Conor Griffin, Po-Sen Huang, John Mellor, Amelia Glaese, Myra Cheng, Borja Balle, Atoosa Kasirzadeh 等。'Taxonomy of risks posed by language models'。在 FAccT 上，2022 年。1 [58] Kaiyu Yang, Klint Qinami, Li Fei-Fei, Jia Deng, 和 Olga Russakovsky。'Towards fairer datasets: Filtering and balancing the distribution of the people subtree in the ImageNet hierarchy'。在 FAccT 上，2020 年。1 [59] Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, 和 Haifeng Wang。'ERNIE-ViL: Knowledge enhanced vision-language representations through scene graphs'。在 AAAI 上，2021 年。3 [60] Dora Zhao, Angelina Wang, 和 Olga Russakovsky。'Understanding and evaluating racial biases in image captioning'。在 ICCV 上，2021 年。1, 2, 3, 5, 6, 7 [61] Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez, 和 Kai-Wei Chang。'Men also like shopping: Reducing gender bias amplification using corpus-level constraints'。在 EMNLP 上，2017 年。1, 2