GPT-4：大型多模态模型简介

简介

本技术报告介绍了GPT-4，一种大型多模态模型，能够处理图像和文本输入，并生成文本输出。这样的模型是一个重要的研究领域，因为它们有潜力被用于各种应用，如对话系统、文本摘要和机器翻译。因此，它们在近年来一直受到广泛的关注和进展[1-34]。

开发这样的模型的主要目标之一是提高它们理解和生成自然语言文本的能力，特别是在更复杂和微妙的情况下。为了测试它在这些情况下的能力，GPT-4在一系列最初设计给人类的考试中进行了评估。在这些评估中，它表现得相当不错，并且通常比大多数人类考试者得分更高。例如，在模拟的律师考试中，GPT-4获得了一个排名前10%的分数。这与GPT-3.5形成了对比，后者的得分在最后10%。

在一套传统的NLP基准测试中，GPT-4表现优于以前的大型语言模型和大多数最先进的系统（这些系统通常具有基准测试特定的训练或手工工程）。在MMLU基准测试[35,36]中，这是一套覆盖57个科目的英语多项选择题，GPT-4不仅在英语中比现有模型表现更好，而且在其他语言中也表现出强大的性能。在MMLU的翻译版本中，GPT-4在考虑的26种语言中有24种超越了英语的最先进水平。我们在后面的章节中更详细地讨论了这些模型能力结果以及模型安全性的改进和结果。

本报告还讨论了该项目的一个关键挑战，即开发能够在各种规模下可预测行为的深度学习基础架构和优化方法。这使我们能够对GPT-4的预期性能进行预测（基于以类似方式训练的小运行），并对最终运行进行测试以增加我们的训练信心。

尽管具有这样的能力，GPT-4与早期的GPT模型[1,37,38]有类似的限制：它不是完全可靠的（例如，可能会出现'幻觉'），有限的上下文窗口，