超越模仿：大型语言模型的全新能力

在2020年，戴尔和谷歌研究团队预测LLMs将具有变革性的影响，但这些影响将是什么仍然是一个悬而未决的问题。因此，他们请求研究社区提供各种难度和多样化的任务示例，以绘制LLMs的极限。这项工作被称为'超越模仿游戏基准'（BIG-bench）项目，其名称取自于阿兰·图灵的'模仿游戏'，这是一种测试计算机是否能以令人信服的人类方式回答问题的测试（后来被称为图灵测试）。这个团队对于LLMs突然获得全新能力的例子特别感兴趣，这些能力以前完全不存在。