大型训练集带来的社会偏见风险：如何构建公平的 AI 模型

尽管在受控基准测试中取得了令人印象深刻的结果，但存在一个关键的缺点：训练集越大，对数据的控制越少。由于互联网上容易获取有害内容，使用未经筛选的数据集训练的模型更容易学习到有害的世界表征，包括社会偏见，这导致模型在不同社会人口群体中表现不同[57]。获取不公平的表征的风险很高，因为在偏倚数据集上训练的模型不仅学会复制偏见，而且通过使预测比原始数据更加偏见来放大偏见[22, 53, 56]。当模型在真实世界中使用时，这种情况变得有害[10]。

手动注释的数据集[16,30]已经显示受到社会偏见的影响[21,32,60,61]，但在自动抓取的数据集中问题更加严重[8,9]。为了克服社会偏见，公平协议必须同时包含在数据集和模型开发阶段。数据分析[8,9,21,32,52,58]、评估指标[22,40,53]和缓解技术[5,11,23,54]是开发更公平模型的重要工具，然而，它们需要人口属性（如性别或肤色）可用。目前这些注释很少，只存在于少数数据集和属性中[60,61]。