GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。（gpt-3模型）

大模型是世界模型吗？UA微软等机构最新研究发现，GPT-4在复杂环境的模拟中，准确率甚至不及60%。对此，LeCun激动地表示，世界模型永远都不可能是LLM。

一直以来，对LLM（Language Model）的支持观点之一，就是模型可以集成大量的事实知识，作为通往「世界模拟器」的基础。

虽然也有不少人提出反对，但没有确凿的证据。

那么，LLM（Language Model）可以作为世界模拟器吗？

最近，亚利桑那大学、微软、霍普金斯大学等机构联合发布了一篇论文，通过实证研究得出了否定的结论。

最新研究已被ACL 2024顶级学术会议接收。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图1

论文地址：https://arxiv.org/pdf/2406.06485

研究发现，GPT-4在模拟基于常识任务的状态变化时，比如烧开水，准确度仅有60%。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图2

论文认为，尽管GPT-4这样的模型表现非常出色，但如果没有进一步的创新，它就无法成为一个可靠的世界模型。

为了评估LLM的规划能力，作者提出了一个全新的基准测试——bytesized32-state-prediction，并在该测试上使用了GPT-4模型。

基准测试的代码和数据也已经在GitHub上开源，可以帮助未来的研究者进一步探索LLM的能力、优点和缺点。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图3

https://github.com/cognitiveailab/GPT-simulator

一向对自回归语言模型无感的LeCun也转发了这篇论文。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图4

他用了非常坚定的语气表示，「没有全面的世界观，就没有有效的规划能力」。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图5

虽然如此，只凭一篇论文又怎么能平息LLM界的重大分歧？支持语言模型的网友很快就在评论区下面反驳LeCun——

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图6

网友：目前的LLM（语言模型）能够达到约60%的准确率（在没有专门为任务进行训练的情况下），这至少表明它具备某种「世界模型」，而且每一代LLM都在不断提升。

LeCun：世界模型不会是低级语言模型（LLM）。

网友：也许吧。但这并不意味着LLM内部不存在某种（不准确的）世界观。

不过，在Hinton看来，人工智能已经不再是仅仅依赖于过去，基于统计模型做下一个token的预测，而是展现出更高的「理解」能力。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图7

然而，要成为世界终极模拟器，大模型还有很长的路要走。

LLM是「世界模拟器」吗？

模拟世界，对于人工智能的学习和理解世界至关重要。

以往，多数情况下，由于现实条件的限制，模拟的广度和深度受到了一定的限制。因为需要人类专家花费数周甚至数月的时间来进行大量的工作。

而现在，大模型提供了一种替代的方法，即通过预训练数据集中大量知识，获得对世界的深刻理解和广泛的认知。

但是，它们准备好，直接用作模拟器了吗？

对此，这项研究的团队在「文本游戏」这一领域进行了实验，以验证这一问题。

一般来说，在世界建模和模拟的背景下，应用LLM（逻辑语言模型）有两种方式：一是采用神经符号化方法，即将神经网络与符号逻辑相结合，以实现更高层次的推理和理解能力；二是直接模拟，即通过模拟现实世界的各种因素和变量，来预测和分析可能的结果。

在论文中，研究人员首次对LLM（低层次模拟）在模拟虚拟环境方面的能力进行了量化分析。

他们利用JSON模式的结构化表示作为脚手架（scaffold），不仅提高了模拟精度，还可以直接探查LLM在不同领域的能力。

结果发现，GPT-4普遍无法捕捉与智能体行为无直接关联的「状态转移」（state transition）。

结果发现，GPT-4普遍无法捕捉与智能体行为无直接关联的「状态转移」（state transition）现象。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图8

甚至还包括涉及算术、常识或科学推理的状态转移。

在各种不同条件下，对于模拟一些复杂环境变化时，GPT-4的准确率不及59.9%。

同时也表明，LLM（Language Model）还不足以可靠地充当世界模拟器。

那么，研究人员具体如何实现的？

研究方法

他们将文本的虚拟环境形式化，建模为一种马尔可夫决策过程（POMDP），其中包括以下7个元组：状态（S）、动作（A）、转移函数（T）、观测（O）、奖励（R）、成本（C）和折扣因子（D）。

其中，S表示状态空间，A表示行动空间，T:S×A→S表示状态转移函数，O表示观测函数，R:S×A→R表示奖励函数，C表示用自然语言描述目标和动作语义的「上下文信息」，D:S×A→{0,1}表示二元指示函数，用0或1标记智能体是否完成任务。

其中，上下文C为模型提供了除环境外的其他信息，例如行动规则、物体属性、打分规则和状态转换规则等等。

然后，研究人员还提出了一个预测任务，称为LLM-as-a-Simulator（LLM-Sim），作为一种方法来定量评估大模型作为可靠模拟器的能力。

LLM-Sim任务被定义为实现一个函数，该函数的目标是：

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图9

作为世界模拟器，将给定的上下文、状态和动作（即）进行模拟和仿真。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图10

）映射到后续的状态、奖励和游戏完成状态（即

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图11

）。

每个状态转移用如下的九元组表示：

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图12

实际上，整个状态转换模拟器F，应该考虑两种类型的状态转移：行为驱动的转移和环境驱动的转移。

对于图1中的示例，行为驱动的状态转移是在执行「打开水槽」动作后，水槽被打开。而环境驱动的转移是，当水槽打开时，水将自动流入槽中的杯子。

此外，LLM的预测模式还可以分为两种：一种是预测下一步的完整状态，即预测未来的状态；另一种是预测两个时刻之间的状态差，即预测状态的变化。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图13

为了更好地理解LLM（语言模型）对于每种状态转移的建模能力，研究人员进一步将模拟器函数F分解为三种类型：

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图14

评估结果

在建模了LLM（Limited Liability Model）的决策过程之后，作者还使用文本构建了一个虚拟人物场景。

Bytesized32-SP基准测试的数据来源于公开的Bytesized32语料库，该语料库包含了32个由人类编写的文字游戏。

在添加了一个金标签的游戏之后，测试集共涉及了31个不同的游戏场景，其中包含了超过7.6万个状态转换。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图15

LLM（Language Learning Model）根据上下文和前一个状态进行单步预测，给出下一步时的物体属性、任务进展等详细信息。

规则方面，研究人员也提出了三种设定：由游戏作者撰写、由LLM（机器学习模型）自动生成，或者根本不提供规则。

设定好虚拟环境和任务规则后，作者运行GPT-4进行预测得到了如下结果。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图16

为了保持严谨性，作者根据状态转移前后预测结果是否发生变化，将其分为静态和动态两类进行分开统计。如果在前后两个状态中，结果没有发生变化，LLM也更容易进行预测。

不出意料，静态一栏的准确率基本都高于动态。

对于「静态」转移模型来说，当预测状态差时，它的表现更好。而对于「动态转移」模型来说，则相反，在完整状态预测中得分更高。

作者推测，这可能是因为在预测状态差时，需要减少可能出现的格式错误，这会给任务的输出增加额外的复杂性。

还可以看到，预测动作驱动的状态转移的准确率往往高于环境驱动类。在dynamic栏，前者预测最高分有77.1，而后者最高只有49.7。

此外，游戏规则的制定方式将对LLM的表现产生重要影响。

如果没有提供游戏规则，LLM的预测性能会显著下降，但是无论是由人类制定规则还是由LLM自动生成规则，都不会对准确率产生明显影响。

相比之下，规则制定对游戏进度预测的影响更加显著。

相比于人类制定的规则，GPT-4生成的规则在预测方面提升了超过10个百分点。这是否意味着GPT-4更擅长相互理解？

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图17

以上结果都只是针对法学硕士（LLM）在不同设定下的性能比较。和人类预测相比，结果如何呢？

为此，4位论文作者亲自上阵和GPT-4（第四代生成对抗网络）进行一场激烈的对决。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图18

不知道李世石看到这个结果会不会有所安慰。人类的总体准确率在80%左右，远高于GPT-4在50%附近徘徊的成绩，这显示了GPT-4在规划能力上存在重大差距。

对于规划任务中的单步预测模型，每一步的模拟误差都会逐渐累积并向后传播，单步的低性能会在很大程度上影响整体的表现。

此外，人类准确率的波动幅度基本不大，说明任务设定相对简单、直接，适合人类的思维模式。

GPT-4这种性能较差的表现给我们提供了一个重要的机会，可以更详细地分析LLM在哪些方面存在能力缺陷。

因此，论文作者将LLM的预测结果进行详细的分析，发现在二元布尔值属性上（以is开头的属性），模型通常能够取得良好的效果。

GPT-4不是世界模型，LeCun表示赞同！ACL证明LLM无法模拟世界。_图19

预测表现比较糟糕的，通常是一些非平凡属性，比如需要算术运算的温度（temperature）、需要常识的当前照相机光圈（current aperture），或者需要科学知识的灯泡是否打开（on）。

相比之前的基准测试，这似乎更准确地揭示了LLM在常识和科学推理方面的不足之处。

此外，这也能反映出模型在某些行为上的”过度关注”。

在进行完整预测时，它通常过于关注动作驱动的状态转移而忽略了环境驱动，出现了很多「未改变值」的错误。然而，可以从分开预测的结果中看到，这些错误是本可以避免的。

作者提出，这篇文章的局限性之一是只使用了GPT模型进行测试，也许其他模型可以有不同的表现。

这项研究的意义更在于提出了基准测试，为了探索LLM在「世界模拟器」方面的潜力，提供了一套可行的问题形式定义和测试流程。

猜你喜欢