近日,斯坦福大学教授、Landing AI 创始人兼首席执行官吴恩达(Andrew NG)在 Snowflake Dev Day 上与 Snowflake 首席执行官 Sridhar Ramaswamy 展开了一场对谈与演讲。
Sridhar 强调,技术应保持相对低廉的价格,以便更多人可以开发和推动技术进步。他指出,技术既能带来良好的应用,也可能被不良用途利用,因此法律应该涵盖这些情况,但不能过早地抑制创新。
吴恩达详细介绍了Vision Agent(视觉智能体)的应用,展示了AI在计算机视觉领域的巨大潜力。他强调了自动化复杂的图像处理任务的重要性,并认为Agentic AI是一个非常重要和令人兴奋的趋势。
关于 Agent 应用,他强调了 AI Agent 的工作流程使得 AI 应用从玩具新奇品走向实用化。通过迭代和反复的流程,AI Agent 可以更有效地完成复杂任务,如代码编写、文档撰写等。
此外,他还强调了在人工智能研究和应用中跨学科合作的重要性,特别是在开源项目中。他提到了Landing AI和Snowflake的合作,这两个公司为开源AI Agent的开发做出了重要贡献。
以下是这次演讲的完整内容,请享受~
Andrew Ng
我记得当我还是个年轻人的时候,我的第一份工作是担任办公室管理员。我记得那时候我主要负责复印文件。我就是不停地复印,一遍又一遍。即使在那个时候,作为一个年轻人,我就想,如果我们能够自动化所有这些复印工作,也许我就可以把时间花在其他更有意义的事情上。这就是为什么我对学习计算机科学和人工智能产生了兴趣的原因。事实上,你刚才提到的,我实际上忘了,我看到你将它介绍给Google作为业务。现在你看到了一个大公司,你提到你正在编写streamlit代码。通过所有这些经历,我对它有了更深入的理解。
Sridhar Ramaswamy
我做到了。这实际上可以很有趣。streamlit 应用程序很有趣。我非常兴奋地观看了 Landing AI 和 Snowflake 合作的视频,我们在 LinkedIn 上共同发布的 Landing Lens。对我来说,这是纯粹的快乐。在我们谈论AI的时候,我必须问,有一个十亿美元的奇迹要来了?你认为,但人们需要,不知道,50000 个 H100s 来开始。第一步。
Andrew Ng
是的,我确实感觉到人们是这样想的。显然,我们会到达那里。部分人觉得可能会有更便宜、资本密集度更低、能耗更低的方法来构建高度智能的系统。但另一方面,我认为我们还没有充分利用所有的规模效应。所以这也是值得追求的。我只是想说,我非常感谢 Snowflake 在开源方面所做的工作。我认为我们需要更多。- 是的,更多。- 我们需要更多的贡献者来做这种事情。
Sridhar Ramaswamy
当技术广泛传播时会发生好事,当很多人都能做同样的事情时,否则它自然会落入少数人手中。这意味着我们不会获得广泛的利益。所以对我来说,这就是为什么我希望模型保持相对便宜,以便更多人可以开发。更多人可以思考或推动我们所有人前进。- 再问几个问题。你最近在美国国会,那里有关于开源模型AI监管的辩论,你对此有何看法?
Andrew Ng
是的,目前我实际上非常担心加利福尼亚州提议的SP1047法案,我认为这对开源创新非常不利。我觉得这是一层技术,一层技术,而技术对许多应用都很有用,然后是应用层,通常是特定的技术实例化以满足客户需求。对于像人工智能(AI)这样的通用技术,不可能阻止AI被应用于潜在的有害用途。
加利福尼亚州 SP1047 法案提出了这样的责任风险,即如果有人开源了一个模型,而有人找到一种方式将其用于不良用途。我希望我们能够确保人工智能永远不会被用于不良用途。我希望我们能够确保计算机永远不会被用于不良用途。但如果你说任何计算机制造商都要对任何人使用他们的计算机做坏事负责,那么唯一合理的行动就是停止制造计算机,这将是可怕的。
所以我认为华盛顿 DC,幸运的是,变得更聪明了。我觉得在过去的一年里,白宫的行政管理层我有一些担忧,但我认为国会和参议院变得相当聪明,舒默小组实际上理解了人工智能,并且更倾向于投资而不是关闭它。但我实际上非常担心在加利福尼亚州,这里是这么多人工智能创新的家园,有一个真正可怕的提案在案上。刚刚通过了参议院投票,接下来要到议会,如果通过的话,我觉得会很糟糕。我们拭目以待,你们所有人,去抗争。SP1047 是一个糟糕的想法。
Sridhar Ramaswamy
人们忘记了,我认为真的很重要的是重申 Andrew 刚才所说的,我们所有人需要理解,人工智能(AI)是一种技术。是的,技术会带来好的事情,但也会有坏人利用技术。我们需要确保法律涵盖这些事情,但不能让技术成为英雄或恶棍,技术会有各种不同的用例,作为一个社会我们需要为此做好准备。
Andrew Ng
好的,另一个问题。要明确,我是支持有思想的监管的。我们要对有害应用进行监管。我支持有思想的保护措施,但当法规提出不可能的要求时,我认为唯一的结果就是抑制技术和创新。
Sridhar Ramaswamy
这是需要谨记的事情,过早的监管可能会带来很大的限制,因为它引入了太多的风险。好吧,话题转向。你知道,无论是 GPT-3还是 GPT-4,或者Lama模型或Arctic模型,都有很大的进步。但最近大家都在谈论的热门话题是Agentic AI。你能告诉我们这是什么吗?
Andrew Ng
是的,我认为AI Agent(人工智能代理)正在显著扩大人工智能的应用范围。我觉得有一组AI工具和大型语言模型在工作,特别是在cortex上的工作真的很棒。我发现,当你基于这些工具构建时,我们可以进一步扩大大型语言模型的可能性。在AI技术趋势方面,我认为对于任何构建人工智能的人来说,如果让我选择一个需要关注的事情,我会说是AI Agent(人工智能代理)。我认为我们应该关注很多事情,但如果让我选择最重要的一件事,这可能就是它。
我的团队 Landing AI 在 Snowflake 上构建了 Landing Lens 原生应用。因为这是一个开发者大会,我想借此机会与大家分享一些关于AI Agent 的内容,这是让我非常兴奋的事情。我将分享一些以前从未展示过的内容,所以这里会有一些全新的东西。
AI Agent 是一种人工智能代理,它可以使用大语言模型进行零样本推理。大语言模型可以理解为一个能够生成文本的模型,类似于一个能够从头到尾打字完成一篇文章的人。尽管这种写作方式很困难,但AI Agent在这方面表现出色。
相反,一个代理人(Agent)的工作流程要更加迭代。你可以说,写一篇关于写作的文章,然后问它做了哪些研究?如果有的话,去网上搜索一些信息,然后写初稿,再阅读你的草稿看看是否可以改进并修改草稿。代理人的工作流程更像是这样,算法会进行一些任务,进行一些研究,然后进行修订和思考。这种迭代循环实际上会带来更好的工作成果。
如果你想象使用 Agent 来写代码,今天我们倾向于一次性编写代码,就像让一个开发者从头到尾打出程序然后运行,并且它能相当好地工作。但 Agent 的工作流程允许它以更高效的方式工作。
所以我的团队收集了一些基于编码基准测试HumanEval 的数据。HumanEval 是OpenAI几年前发布的一个标准基准测试,提供像这样的编码难题:给定一组整数,返回它们的和,答案就是解决方案。结果显示 GPT-3.5 在这个基准测试上的通过率为48%,而GPT-4的表现更好,达到了67%。
但是,如果你将GPT-3.5嵌入到Agent的工作流程中,它的性能将会更好。而且GPT-4在Agent的工作流程中也表现出色。因此,我希望你们能够认识到,从GPT-3.5到GPT-4有了巨大的改进,但是从GPT-3.5到Agent工作流程的改进更加显著。对于所有构建应用程序的人来说,这表明Agent工作流程具有巨大的潜力。
我的团队在Landing AI工作在视觉人工智能方面,我想分享一些最新的进展。我以前从未展示过这些内容,我们几天前刚刚开源了关于构建视觉代理的一些内容。这个项目的负责人Dylan Layer是一名狂热的冲浪爱好者,他经常观看冲浪视频。
这是一个关于冲浪者的视频,视频中展示了一群游动的鲨鱼。Dylan对这个视频非常感兴趣,他想知道鲨鱼离冲浪者有多近。视频中通过改变颜色来显示鲨鱼与冲浪者之间的距离,当鲨鱼离冲浪者超过10米时,颜色会从红色变为绿色。
如果你要编写代码来完成这些任务,你需要进行对象检测和测量边界框等操作。这些任务非常繁琐,需要花费几个小时的时间来编写代码。因此,我想展示一下我们制作这个视频的方法,我们编写了一个提示:
“你能在视频中检测到任何鲨鱼或冲浪者吗?请在视频中画一条绿色线,并在研究板上显示检测结果。假设每30像素等于1米。”
这是给 Vision Agent 的指令。Agent 会将任务拆分为一系列步骤,并利用数据抓取工具进行处理。
这是给 Vision Agent 的指示。DOM 按照这些指示提供正确的步骤。因此,将这些任务分解成一系列步骤。确保使用你的 daystrap 框架来分隔这些步骤。以下是完成此任务的步骤序列。接下来,检索工具,工具指的是函数调用。例如,在保存视频时,调用保存列表的实用函数,然后我们检索保存视频或保存视频函数的详细描述,对于其他工具也是如此。
测量冲浪者与冲浪板之间的距离,并基于此自动生成代码,当运行时,会生成你刚才看到的视频。接下来,我想更深入地探讨这个过程的工作原理。我们建立了 Vision Agent ,其工作方式如下:你输入一个提示词。这是一个比我刚刚使用的更简单的提示词。但目标是计算冲浪者与冲浪板之间的距离。
我们 Vision Agent 的目标是编写代码来执行您提供的任务,以便您可以提供单个图像并生成所需的结果。与编写非图像代码的 Agent 工作流类似,我们发现这种方法在许多应用中比零样本提示效果更好。
此外,我们发现对于许多图像用户来说,拥有一段代码能够高效地运行在大量图像上是非常重要的。举个例子,假设在Snowflake中有10万张图像,如果你有一段代码,你就可以轻松处理这些图像或者制作视频帧,并且通过一段相对高效的代码来得到答案。
我想和你们分享 Vision Agent 的工作原理并征求反馈,帮助我们改进它。Vision Agent 是由两个 Agent 组成的,一个是 Coder Agent ,另一个是 Tester Agent 。使用这样的提示词时, Coder Agent 首先运行一个计划器,列出完成任务所需的所有步骤。你会知道,图像用户工具用于检测对象、计算距离等等,然后它检索每个工具的详细描述,工具指的是函数,最后生成代码。
也许有些部分看起来有点神奇,但所有代码并非如此。看看我们使用的具体提示词,你可能会对细节感到惊讶,第一次看到可能会觉得很神奇。但看看代码和提示词,事实证明,当你这样做时,你必须感受演示。
这段文字告诉我们,有一个图像用户,她戴着面具,或者使用了Python字典。在代码的某个地方,有一个Python字典,其中有八个人戴着面具,而另外两个人没有戴。
这里是生成可视化图检测的另一个提示词。这是一个新生成的代码,自动完成的。实际上,我错过了未戴面具的人,但物体检测功能成功找到了未戴面具的人。再举一个例子,这个有点有趣。我说每两秒钟生成一次视频,生活是一场奇迹,输出 Jason,显示是否有奇迹。
因此,合约视频总是令人惊讶,我认为几乎每次都会受到伤害,但只有16秒的视频。视频中出现了一辆车。幸运的是,没有人受伤,我认为。按照这个方法,下面是右边的代码。它处理视频并输出Jason,在这个时间戳上显示没有合约,在另一个时间戳上显示有合约。因此,根据我从内部团队和一些用户那里听到的反馈,我本来可以自己编写代码,但可能需要几个小时,而现在你可以在几分钟内完成。最后,通过使用计算机视觉,我们使用了许多不同的函数,坦白说,我永远记不住。
我们所使用的函数是什么语法,这确实使得构建视觉应用程序的过程变得更加简单和便捷。当它工作时,我想分享另一件使其更加完善的事情,那就是 Tester Agent 。我展示了 Coder Agent。事实证明,你可以使用一个LOM(对象模型)来编写一些测试代码,并基于这些测试代码执行测试。目前,我们的测试代码通常是进行类型检查,坦率地说,这有点有限。但即便如此,我们也可以执行测试代码,如果测试代码失败,将输出反馈给 Coder Agent,让它进行反思和重写代码,从而进一步提升性能。
我还应该提到,在学术文献方面,我们经常展示的两篇研究论文是 Juan Loll 撰写的《Agent Code》论文和《Data Interpreter》论文。如果你想了解这些技术,可以查阅这些论文。接下来,我将展示一个长时间的演示,这是为了展示每两秒乘以的概念。我们希望它能突出显示。
因此,这实际上是用于中国中央电视台(CCTV)视频的测试,将它们组合在一起的视频。常见的需求是希望突出显示视频中的有趣部分。这是一个长时间的YouTube链接。它会创建指示,检索工具。事实证明,代码有时不起作用。
代码可能会多次失败,例如在运行时,这里有一个索引错误追踪。所有这些错误信息都会反馈给LOM,第二次失败,第三次失败。第三次失败后,系统需要安装 pi2 库。最后,修复方法是执行pip install pi2,然后代码成功运行。这样就能在 CCTV 长视频中突出显示有超过 10 辆车的部分。
我们最近构建了一个名为Landing Lens 的系统,这是一个基于监督学习的计算机视觉系统,作为 Snowflake 原生应用程序。通过使用监督学习,我们能够减少一些错误。
系统在复杂推理方面表现不佳。例如,如果你说每只鸟重半公斤,系统会天真地检测到所有的鸟,但不会意识到一只鸟在飞翔,不会给围栏增加重量。事实证明,如果你修改提示,系统可能会正确猜测。
如果你对今天的 Vision Agent 感到满意,我们将会发布它的测试版。测试版有时候会有效,有时候会无效。提示词的措辞对结果有很大影响,有时候你需要调整提示词以更加具体地描述步骤。因此,我不能说这是非常出色的软件,但有时候它确实有效。我对结果感到非常高兴和惊讶。
这个核心引擎也是开源的。我认为人工智能代理是一个非常重要和令人兴奋的趋势,我们正为开源做出一点贡献,希望能帮助大家。我希望通过共同努力,我们能够大大改进代理,并显著提高我们作为开发者的能力。
在我们的 Agent 中,我已经被用于许多不同的应用。我觉得你们中的一些人可能已经在社交媒体上看到了 Devon 的动态,尽管关于那个公告的性质还有一些讨论。但这个开放的 Devon 是一个开源代码 Agent ——它有很多关于 Coder Agent 的研究。
我看到团队在进行法律工作,例如,分析复杂的法律文件,使用Agent进行复杂法律文件的分析。我认为AI研究Agent可以通过在互联网上进行网页搜索,综合大量信息并编写文档,与Dev Research团队一起合作。这种方法非常受欢迎。我实际上使用了很多类似QAI、AutoGen、Langdraft这样的Agent平台进行操作。
我正在让很多人构建许多基于这些框架的应用。而现在,我发现许多 Agent(代理程序)往往是为特定目的而构建的。但有趣的是,是否会有一个单一的通用 Agent(代理程序) 。我觉得这很令人兴奋。
对于很多代理人(Agent),我认为我们刚刚跨过了从玩具新奇到实用的门槛。例如,人工智能研究代理人,我在日志中提到,我将进行网页搜索,为你撰写研究论文。
我觉得大约三个月前,它很适合玩,但就在过去的几个月里,我的朋友 MonicaBlan 来自斯坦福,她的研究实验室发布了 Storm,这是一个开源软件,这实际上会很有用。所以我认为就在过去的几个月里,我看到很多这些应用程序不再只是有趣的新奇事物,而是变得非常有用了。
我觉得大约三个月前,这些应用程序只是用来娱乐的,但是在过去的几个月里,我的朋友Monica Blan来自斯坦福的研究实验室发布了Storm,这是一个开源软件,它实际上非常有用。因此,我认为在过去的几个月里,我看到很多这些应用程序不再只是有趣的新奇事物,而是变得非常有用了。