GPT-4 的能力和局限性：安全挑战与可预测扩展

尽管 GPT-4 具有强大的功能，但与早期的 GPT 模型 [1、37、38] 相比，它仍存在类似的限制：它不是完全可靠的（例如可能出现‘幻觉’），具有有限的上下文窗口，并且不会从经验中学习。在使用 GPT-4 的输出时，特别是在可靠性至关重要的情况下，应当谨慎对待。

GPT-4 的能力和限制带来了重大而新颖的安全挑战，我们认为对这些挑战进行仔细研究是一个重要的研究领域，因为它具有潜在的社会影响。本报告包括一个广泛的系统卡（附录后）描述我们预见到的偏见、虚假信息、过度依赖、隐私、网络安全、扩散等风险。它还描述了我们采取的干预措施，以减轻 GPT-4 部署可能带来的潜在危害，包括与领域专家进行对抗性测试和模型辅助安全管道。

2 本技术报告的范围和限制

本报告关注 GPT-4 的能力、限制和安全属性。GPT-4 是一种 Transformer 风格的模型 [39]，经过预训练以预测文档中的下一个标记，使用了公开可用的数据（如互联网数据）和从第三方供应商许可的数据。然后，使用人类反馈的强化学习 (RLHF) [40] 进行了微调。鉴于竞争环境和像 GPT-4 这样的大规模模型的安全影响，本报告不包含有关架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法或类似内容的进一步细节。

我们致力于对我们的技术进行独立审计，并在本次发布附带的系统卡中分享了一些初步的步骤和想法。我们计划向其他第三方提供进一步的技术细节，以便他们能够就如何权衡上述竞争和安全考虑与进一步透明度的科学价值进行咨询。

3 可预测的扩展

GPT-4 项目的一个重要焦点是构建一个可预测的深度学习堆栈。主要原因是对于像 GPT-4 这样的非常大的训练运行，进行广泛的模型特定调整是不可行的。为了解决这个问题，我们开发了基础设施和优化方法，在多个规模上具有非常可预测的行为。这些改进使我们能够可靠地预测从使用 1,000×-10,000× 较少计算量训练的较小模型中获得的 GPT-4 的某些性能方面。

3.1 损失预测

正常训练大型语言模型的最终损失被认为可以用用于训练模型的计算量的幂律来很好地近似 [41、42、2、14、15]。

为了验证我们的优化基础设施的可扩展性，我们通过使用相同的方法训练模型，但使用最多比 GPT-4 少 10,000 倍的计算量，将不可避免的损失项（如 Henighan 等人 [15] 所述）与缩放定律相拟合，来预测 GPT-4 在我们的内部代码库上（不是训练集的一部分）的最终损失。这个预测是在运行开始后不久进行的，没有使用任何部分结果。拟合的缩放定律高精度地预测了 GPT-4 的最终损失（图 1）。