GPT-4 项目的深度学习堆栈可预测扩展性研究

GPT-4 项目的主要焦点是构建一个可预测扩展的深度学习堆栈。主要原因是对于像 GPT-4 这样非常大的训练运行，不可行进行广泛的模型特定调整。为了解决这个问题，我们开发了基础设施和优化方法，这些方法在多个规模上具有非常可预测的行为。这些改进使我们能够可靠地预测 GPT-4 的某些性能方面，这些方面是使用比 GPT-4 少 1,000×-10,000× 的计算训练的较小模型训练出来的。

3.1 损失预测

正常训练的大型语言模型的最终损失被认为可以很好地用用于训练模型的计算量的幂律来近似[41, 42, 2, 14, 15]。

为了验证我们的优化基础设施的可扩展性，我们通过拟合一个带有不可约损失项的标度定律（如 Henighan 等人 [15] 所示）L(C) = aCb + c，从使用相同方法但使用至少比 GPT-4 少 10,000x 的计算量训练的模型中预测了 GPT-4 的最终损失。这个预测是在运行开始后不久进行的，没有使用任何部分结果。拟合的标度定律以高精度预测了 GPT-4 的最终损失（图 1）。

3.2 在 HumanEval 上的能力扩展