胡鲁辉表示，未来的GPT-4将有四个发展趋势，其中之一是通过理解物理世界来接近AGI。（胡鲁营村）

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图1

如何从多模态大模型到理解物理世界，更加接近人工智能通用智能（AGI）？

2024中国生成式人工智能大会于4月18-19日在北京举行，在大会首日的主会场大模型专场上，前Meta首席工程负责人胡鲁辉老师以《从多模态大模型到理解物理世界》为题发表演讲。

胡鲁辉谈道，聚焦多模态大模型的后GPT-4时代呈现出4大趋势，一是语言大模型向多模态大模型的转变，二是数据集成向向量数据库的发展，三是Agent智能体向大模型操作系统的演进，四是模型微调向Plugin（插件）平台的转型。

他认为使用大型模型是实现人工智能通用智能（AGI）的可靠方法。在将大型模型应用于实际场景时，企业和研究机构需要面对多个方面的挑战。首先是数据标准化的问题，需要将来自不同来源和格式的数据转化为一种统一的格式，以便于模型的训练和应用。

此外，模型的分散性和应用场景的复杂性也大大增加了开发的难度。例如，在不同的物理环境下，模型需要调整其参数以适应特定的硬件和软件条件。同时，算力成本和训练时间的长短也是制约大模型广泛应用的重要因素。

此外，模型的分散性和应用场景的复杂性也大大增加了开发的难度。例如，在不同的物理环境下，模型需要调整其参数以适应特定的硬件和软件条件。同时，算力成本和训练时间的长短也是制约大模型广泛应用的重要因素。另外，模型的分散性指的是模型在不同的环境下表现出不同的特性，这使得开发人员需要针对不同的环境进行调整和优化。而应用场景的复杂性则意味着模型需要适应各种不同的使用场景，这要求开发人员具备丰富的经验和技能。此外，算力成本和训练时间的长短也是制约大模型广泛应用的重要因素，因为大模型通常需要更多的计算资源和时间来进行训练和推理。

胡鲁辉预测下一个AI 2.0爆发点及落地大方向将是AI for Robotics。这一领域的发展需要模型不仅理解编程或语言处理，更要深入到物理世界的具体应用中去。这涉及对物理环境的理解和设计，需要大模型能够整合各种感知数据，进行快速的决策和学习，以应对不断变化的外部条件。这一过程中，模型的训练和应用将更加依赖于高效的算力和先进的硬件支持。

胡鲁辉预测下一个AI 2.0爆发点及落地大方向将是AI for Robotics。这一领域的发展需要模型不仅理解编程或语言处理，更要深入到物理世界的具体应用中去。这涉及对物理环境的理解和设计，需要大模型能够整合各种感知数据，进行快速的决策和学习，以应对不断变化的外部条件。这一过程中，模型的训练和应用将更加依赖于高效的算力和先进的硬件支持。AI for Robotics的发展将推动机器人技术的进步，使其能够更好地应用于各个领域，如工业生产、医疗护理、农业等。同时，AI for Robotics也将带来更多的机遇和挑战，需要不断创新和改进算法和硬件设备，以实现更高效、更智能的机器人系统。

以下为胡鲁辉的演讲实录：

今天我要分享的是《从多模态大模型到理解物理世界》。随着大模型的快速发展和技术的不断演变，我们对于物理世界的理解也发生了很大的变化。在这里，我希望能够将我在实战中的一些经历与大家分享。

今天的主题主要包括以下四个方面。首先，我们将从大模型的原理出发，探讨GPT-4之后硅谷及全球发生的重大变化。其次，我们将结合大模型和多模态的特征，分享Transformer以及我在Meta的相关工作经历。今天的重点是为什么要去理解物理世界，因为仅仅依靠语言大模型并不能实现通用人工智能，只有理解物理世界才有可能实现它。最后，我们将结合多模态大模型和理解物理世界的知识，探讨如何接近AGI（人工通用智能）。

大型模型开启人工智能2.0时代，Meta是开源领导者

每个技术的快速发展离不开背后大量的科研创新工作，这是人工智能复兴的原因，因为其在快速发展和迭代。人工智能的重要性和意义十分突出，可以说，这次人工智能是第四次计算时代或第四次工业革命。第三次计算时代是移动互联网时代，我们正处于这个时代，根据每次的发展，第四次的规模比第三次要大，且从经济效益上来讲，对人类社会的影响力更大。

人工智能在历史上有两个重要的转折点，分别是AlphaGo和ChatGPT。尽管每个转折点只代表一个产品或技术，但它们对人类的影响不仅仅是技术本身。例如，AlphaGo并不适用于所有公司开发棋类产品或平台。对于社会而言，第一个转折点是利用背后的技术（如计算机视觉或其他技术）开启了人工智能1.0时代。而现在，我们正处于基于大型模型泛化能力的涌现开始人工智能2.0时代。

ChatGPT发布了一年多，性能表现的排名仍然处于领先地位。并且现在大型模型的训练成本越来越高，之前GPT-4的训练成本约为6千万美元左右，而GPT-5的训练成本可能会更高。

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图2

目前OpenAI是闭源大模型的领导者，Meta是开源的领导者。OpenAI在闭源大模型中的领导地位是公认的，Meta的开源大模型Llama和视觉SAM比较领先。其中Llama帮助了很多语言模型开发公司的团队，让他们拥有了很好的基础。

现在模型中，有三个闭源模型和三个开源模型比较领先。或许大家疑惑Meta的Llama怎么不见了，Meta在做另外一件更有意义的事情，就是理解物理世界，他们叫世界模型。最近Llama还没有迭代，大家可以拭目以待，这个排名还是会变化的，Llama为很多大语言模型奠定了基础，帮助很多企业飞速发展。

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图3

02.

Meta有三大SOTA（State-of-the-Art）视觉大模型，包括多模态模型和视觉与语言融合模型。

Meta的视觉大模型还有很多贡献。Transformer最初应用于语言模型，逐步衍生到视觉，其中比较火的一个就是ViT（Vision Transformer），视觉Transformer。

Meta通过ViT或Transformer不断迭代，有三个影响比较大的视觉Transformer：一是DeTr，即Detection Transformer，它具备了端到端的目标检测能力；二是DINO，通过Transformer开启了视觉领域的自监督学习，无论是大语言模型还是其他大模型，都不再依赖标签进行监督，而是能够自主学习；三是SAM，更多是零样本学习，具备了泛化的能力。

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图4

在视觉领域，除了Sora，还有另一个影响力较大的模型是SAM。关于如何训练SAM，需要多少资源以及训练过程中需要注意哪些事情，我去年写了一篇文章详细介绍了如何利用SAM进行微调，如何有效地控制资源并利用资源进行微调。

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图5

几年前，一提到人工智能，就会想到视觉、语言两个支派，卷积神经网络（CNN）、循环神经网络（RNN）基本上各自发展独立。做自然语言处理（NLP）的一批人和做计算机视觉（CV）的那批人有各自的学术派，采用的方法也不同，参加的会议也不太一样。在深度学习领域，语言模型从长短期记忆网络（LSTM）到词向量（Word2Vec），再到最近的生成式预训练（GPT）和双向编码器表示转换（BERT）。视觉模型最早从图像分类到目标检测，再到语义分割，接着又发展到实例分割。

这里有许多地方特别相似，所谓的语言大模型无非是更深层次的一个相关性和逻辑推理。视觉也是一样，逻辑上二者是融合的，技术上是Transformer。语言层面GPT-4、Llama比较经典；视觉中Sora和SAM都是比较经典的例子，它们后面的Backbone都是基于Transformer。

无论从逻辑上讲语义相关性，还是技术上Transformer Backbone，都在逐步融合。

无论是从逻辑上讲的语义相关性，还是从技术上的Transformer Backbone，都在逐步融合发展。

这是一个令人欣喜的消息。对于从事研发工作的人来说，以前在自然语言处理（NLP）和计算机视觉（CV）领域互不干涉的情况终于得到改变。现在，NLP和CV正在发生一次重大的变革。

当前人工智能的核心技术，也是一个相对可靠的通用人工智能方法，能够从一个技术、一个方向扩展到下一阶段。但Meta首席人工智能科学家杨立昆反而不这么认为，JEPA从最初的图像JEPA到视频JEPA有自己的理论。但不管怎么样，从工程上或者应用上，它的效果确实非常出色。

打造大模型的核心关键能力是什么?一般人会说是三个核心，数据、算力、算法。而我根据一些工作经验还归纳出来另外两点。

一个是模型架构，现在的大模型和以前的深度学习算法不同的地方，就是模型架构的重要性。通过改变Backbone或者模型架构的形式，可以进行迁移学习或微调。这不仅仅是将领域数据或领域知识输入模型中，而是通过改变模型架构来生成一个全新的模型，以达到所需的领域模型。

还有一个是智能工程。Llama是开源的，OpenAI搞出来GPT-3.5，也就是ChatGPT，改变世界的奇点就发生了。有GPT-3，有数据、算力，但能不能制造出GPT-3.5？不同的公司不一样，根本原因就是智能工程不同。

这五个里面哪个最核心、最关键？很多人可能会说是算力，很贵，买不到H100、A100，但是无论是谷歌还是微软，都不会缺乏算力，他们目前却没有世界最领先的GPT-4这样的模型。

这五个技术中，很多人认为算力是最核心、最关键的因素。然而，由于算力设备如H100、A100价格昂贵，许多人无法购买。尽管谷歌和微软等公司拥有充足的算力资源，但他们目前还没有开发出像GPT-4这样世界领先的模型。

国内很喜欢强调数据的重要性，确实没有充足的数据很难构建出优秀的模型，但是很多大型企业通常都有足够的数据资源。此外，现如今许多算法都是开源的，比如Transformer和其他一些较新的算法，因此算法本身并不是最关键的因素。而模型架构方面，可以通过微调和不同的尝试来进行探索和优化。

所以结合国外的模型和国内的现状，最核心打造大模型的能力应该是智能工程技术。

这也就是说OpenAI的一些人出来创业搞Claude，刚才大家看到排名中第二领先的就是Claude，就是OpenAI中的人出来创业做的事情。说明人才是最宝贵的资产。

03.

预测“后GPT-4”未来的四大发展趋势，深入探索物理世界的七大特征

现在GPT-4是多模态大模型，在硅谷及全球人工智能发展到底有哪些趋势？我认为有四个方面，这张图是根据我的预测让GPT-4生成的图例展示。

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图6

首先，从语言大模型扩展到多模态大模型。

第二，迈向向量数据库。目前的大语言模型或多模态大模型不论多大，都有一定的局限性，导致向量数据库变得非常受欢迎。大家可以将一部分或大部分的数据存储在向量数据库中，同时将相关的数据存储在大模型中。

第三，从自动Agent到将大模型作为操作系统。Agent比较受欢迎，但是它的背后仍然是语言大模型或多模态大模型。Agent相当于软件自动执行任务。未来，将多模态大模型作为操作系统可能是非常重要的。

第四，开源模型从微调到引入插件平台。ChatGPT相当于一个平台，不仅可以进行微调，还可以通过引入插件来扩展其功能，因此插件可能是未来的一个发展方向。

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图7

为什么模型能够如此迅速地发展，为什么我们能够支撑Scaling Law？很大程度上是由于计算能力的不断提升。在CPU时代，摩尔定律的出现推动了计算能力的快速增长，而在GPU时代，这种发展速度更加迅猛。去年，英伟达发布了一款能够支持1亿FLOPS的算力的产品，而今年他们又推出了新的DGX GB200，相比去年的GH200，尽管规模稍小，但速度更快，仍然处于同一个量级。将多个DGX串联起来，可以构建一个非常庞大的计算规模，而在十年前，IBM计算机也是相当庞大的。然而，如今的手机已经能够支撑过去计算机的算力水平，而GPU也是如此。

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图8

有了这个大型模型或算力之后，应用会发生哪些变化呢？可以看到，AI 2.0相比于以前的传统软件或互联网，用户和场景可能都是一样的。但是以前用户是从App到服务软件再到CPU，而现在用户是从多模态到基础模型，然后到GPU。在这个过程中，可能会依赖数据库或者训练数据，以前我们使用传统的数据库，而现在我们使用向量数据库。

接下来关于理解物理世界，AI赋能了智能手机、智能车、智能家居等等，围绕的计算核心是智能云。现在或未来中心会是AI工厂（人工智能工厂），它的输入是Token，文字、视觉或视频，它的输出就是AI。过去应用有手机、有车，将来就是各种机器人。未来汽车某种意义上也是一种机器人。从架构来看，AI for Robotics是一个未来方向，未来即将爆发的方向，从云计算、AI工程、基础模型，生成式AI再到上面的AI for Robotics。

理解物理世界的复杂性也是一项具有挑战性的任务，目前的语言模型仅限于其训练范围内，对于外部世界的理解仍然存在一定的限制。

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图9

理解物理世界到底有哪些特征，怎么能够从现有的多模态大模型转向理解物理世界，有了理解物理世界以后再向AGI接近？我认为有七个方面，最外面的紫色是比较优秀的人，因为人的水平都不一样，作为比较优秀的人能够深入理解物理世界的特征。

前Meta首席工程负责人胡鲁辉：“后GPT-4”有4大发展趋势，理解物理世界才能接近AGI_图10

但GPT-4或最新的GPT-4 Turbo是什么样？是里面的圈。现在GPT-4 Turbo和人还是有很大的距离，只有从每个维度提升发展，才能真正理解物理世界，更加接近地通用人工智能。

理解物理世界不仅仅是对空间的理解或者空间智能，因为从概念上，“空间”相当于三维空间，仅仅涉及到物体在空间中的位置和运动。然而，对于对物理世界的全面理解，还需要考虑到语言等核心人工智能的因素。

说到这里，大家可能觉得比较抽象，这也是Meta最近在做的一些事情。Meta在开源大模型或者开源多模态大模型方面目前显得“落后”了，但Llama 3马上来了，是因为它把很多精力花在了世界模型中，同时在治理的7个方面提高模型的能力。

我最近成立一家公司叫智澄AI，致力于通用人工智能。我们希望通过不断的研究和创新，使人工智能逐步走向真正的智能。

以上是胡鲁辉老师演讲内容的详细总结。

猜你喜欢