GPT-4 的范围和限制：可预测的扩展性

2 本技术报告的范围和限制本报告重点关注 GPT-4 的能力、限制和安全属性。GPT-4 是一种 Transformer 风格的模型[39]，预先训练以预测文档中的下一个标记，使用公开可用的数据（如互联网数据）和从第三方提供商获得许可的数据。然后，该模型使用人类反馈的强化学习 (RLHF) [40] 进行了微调。考虑到竞争环境和像 GPT-4 这样的大规模模型的安全影响，本报告不包含有关架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法或类似内容的进一步细节。

我们致力于独立审计我们的技术，并在本次发布的系统卡中分享了一些初步的步骤和想法。我们计划向更多的第三方提供更多的技术细节，以便他们可以就如何权衡上述竞争和安全考虑与进一步透明度的科学价值提供建议。

3 可预测的扩展 GPT-4 项目的重点是构建一个可预测扩展的深度学习堆栈。主要原因是对于像 GPT-4 这样的非常大的训练运行，进行广泛的模型特定调整是不可行的。为了解决这个问题，我们开发了基础设施和优化方法，在多个尺度上具有非常可预测的行为。这些改进使我们能够可靠地预测 GPT-4 的某些性能方面，从使用 1,000 倍至 10,000 倍的较小模型进行训练。

3.1 损失预测正常训练的大型语言模型的最终损失被认为可以很好地近似于用于训练模型的计算量的幂律 [41, 42, 2, 14, 15]。为了验证我们的优化基础设施的可扩展性，我们通过拟合一个具有不可约损失项的缩放定律（如 Henighan 等人 [15] 所述）L(C) = aCb + c，从使用最多比 GPT-4 少 10,000 倍的计算的模型进行训练，预测了 GPT-4 在我们的内部代码库（不是训练集的一部分）上的最终损失。这个预测是在运行开始后不久做出的，没有使用任何部分结果。拟合的缩放定律高度准确地预测了 GPT-4 的最终损失（图 1）。

3.2 在 HumanEval 上的能力扩展在训练之前了解模型的能力可以改善关于对齐、安全和部署的决策。除了预测最终损失外，我们还开发了预测更可解释的能力指标的方法。其中一个指标是在 HumanEval 数据集 [43] 上的通过率，该数据集衡量合成 Python 函数的能力，这些函数具有不同的复杂度。我们通过从使用最多比 1,000 倍的计算进行训练的模型进行外推，成功地预测了 HumanEval 数据集的一个子集上的通过率（图 2）。