巨头纷纷涌入，AI狂潮将由人形机器人引领！（电影人型机器人）

随着新技术、新产品、新业态的迅猛发展，人形机器人正成为全球科技创新的新焦点，AI大模型的应用被认为是产业发展的关键，使得人形机器人具备感知、思考、决策等能力的期望不再遥不可及。随着科技巨头的纷纷涌入，全球人形机器人产业正在加速发展。

大厂加速人形机器人产业布局

近日，特斯拉在美国德克萨斯州奥斯汀举行2024年度股东大会。会上，马斯克充满信心地表示，到明年特斯拉将拥有1000个，甚至可能达到数千个Optimus机器人投入运行。马斯克在对比自动驾驶和人形机器人市场潜力后乐观地认为，自动驾驶产业的市场规模可能达到5万亿-7万亿美元，但人形机器人的市场潜力可能更大，高达25万亿美元。

特斯拉公司已经投入人形机器人领域多年。在2021年首届AI DAY上，特斯拉首次公布了Optimus的概念图。2022年，Optimus原型机实现了首次亮相。2023年，特斯拉开始利用自主研发的超级计算机Dojo为Optimus提供算力支持，加快了训练速度。而特斯拉最新发布的视频中显示，Optimus已经具备了在工厂中工作的能力。视频展示了Optimus在电池生产线上搬运和分拣等动作，展示了其在工业场景中操作熟练、工作精细的能力。

巨头纷纷涌入，AI狂潮将由人形机器人引领！_图1

如果说特斯拉是直接投入人形机器人进行开发与制造，英伟达则是在产业生态上进行布局。资料显示，早在十年前，即2014年，英伟达就已开始介入机器人领域。当时，黄仁勋曾亲手将一台NVIDIA DGX AI超级计算机交付给OpenAI。2023年英伟达在COMPUTEX上发布全新Jetson AGX Orin工业级计算平台。该平台可以提供更强的计算能力，意味着在农业、建筑、能源、航空抗体、卫星等极端环境中打造更强劲的机器人有了可能。2024年，英伟达围绕具身智能加速布局，宣布成立通用具身智能体研究实验室GEAR。

得益于大模型的快速发展，生成式AI技术正在加速推进人形机器人的成熟与应用。英伟达机器人和边缘计算副总裁Deepu Talla认为，大模型使机器人能够更自然地理解和响应人类指令。“鉴于这些特性，生成式AI非常适合用于机器人技术。”

大模型让“决策”更聪明

我国也在加快推进人形机器人产业的发展。去年10月，工业和信息化部印发《人形机器人创新发展指导意见》，提出到2025年人形机器人创新体系初步建立；到2027年综合实力达到世界先进水平，成为重要的经济增长新引擎。与此同时，以优必选、傅利叶、智元等为代表的初创公司也陆续面世；而以达闼、越疆、大疆等为代表的传统机器人企业则拥有多年的技术积累；小米、阿里等互联网巨头也凭借在人机交互、AI、物联网等方面的优势，强势进入新市场。

作为机器人的重要分支，人形机器人凭借“拟人”优势赋予其的功能多样性与普适性，可以适用于更加广泛的社会岗位，市场前景被寄予厚望。高盛预测，到2035年，人形机器人市场或将达到1540亿美元，成为继智能驾驶电动车后的又一AI落地场景。

巨头纷纷涌入，AI狂潮将由人形机器人引领！_图2

AI大模型的普及被看作是人形机器人产业发展的一个转折点，它使得人形机器人不再局限于感知、思考和决策等方面，而变得更加接近现实。过去，由于算法模型的限制，人形机器人很难实现“泛化”，只能在特定领域进行训练，以满足特定的需求，这大大限制了人形机器人的应用范围。然而，随着具有强大泛化能力的大模型的出现，人形机器人现在有了更多的实际应用可能性。科大讯飞开放平台研发总监刘可为在之前的演讲中指出，大型模型的涌现为机器人行业带来了全新的发展机遇。以具有身体智能的人形机器人作为代表，成为了发展的趋势。它们的决策更加智能化，功能更加实用，体验更加自然，应用场景也更加多样化。

去年4月，AI公司Levatas便与波士顿动力合作，将ChatGPT以及谷歌公司的语音合成技术接入Spot机器狗，使其成功实现与人类的交互。多模态大模型则能让人形机器人能够通过“视觉”与外部环境交互。去年7月，谷歌DeepMind推出RT-2，这是全球首个VLA模型，可控制机器人的视觉－语言－动作。通过将 VLA预训练与机器人数据相结合，能够端到端输出机器人的控制指令。通过测试，RT-2 与之前的模型相比，在符号理解、推理和人类识别三个方面具有更高的任务成功率以及更强的泛化和涌现能力。可以说，大模型赋予了人形机器人一个通识大脑，能够顺畅地和外部对话，还可以增加任务理解、拆分和逻辑推理等方面的决策能力。

This text cannot be expanded as per the guidelines provided.

数据与算力仍面临挑战

尽管各大科技巨头都在不遗余力地探索人形机器人领域，并取得了可观的成果，但事实上，人形机器人大型模型在实际应用中仍然面临诸多问题。首先，面临的挑战之一是缺乏用于训练机器人的高质量数据。由于机器人需要通过多种传感器感知环境并执行实际动作来完成任务，因此训练这些大型模型需要使用大量机器人在真实世界中与环境互动的数据集。对于ChatGPT来说，公开的互联网数据量非常丰富，可以轻松获取大量的公共领域数据。然而，现实中可用于收集训练数据的人形机器人数量却非常有限。因此，如何解决机器人算法训练所需的大量数据问题是当前行业面临的主要挑战之一。

巨头纷纷涌入，AI狂潮将由人形机器人引领！_图3

近日，英伟达宣布开源旗下Nemotron-4 340B（3400亿参数）模型，开发人员可使用该模型生成合成数据，用于大模型的训练。有观点认为，英伟达此举的目标或许就是指向人形机器人的数据集市场。由于现实数据过于稀少，因此合成数据已被视为解决机器人领域高质量训练数据不足、采集效率低下问题的重要途径。机器人智能体可以通过模仿学习在生成的数据集上进行训练。英伟达Nemotron-4 340B使用了9万亿个token对其进行训练，可以为开发人员提供一个可扩展的生成合成数据模型。此举或将进一步巩固其在人形机器人训练市场的核心地位。

另一个瓶颈则是芯片算力问题。机器人大模型对机器人行动控制的周期仍太长，无法做到实时响应。谷歌RT-2的演示视频需要2倍速播放才能实现比较流畅的机器人动作，而斯坦福大学李飞飞团队提出了智能系统 VoxPoser 更是需要8倍速才能有流畅的动作表现。实时性的提升依赖于算力，对于面对高复杂性环境的人形机器人尤其重要。中科院院士姚期智在 2023 世界机器人大会的演讲中就强调，计算能力的挑战非常重要。

浙江大学教授熊蓉也在2024中国人形机器人生态大会中也指出，人形机器人的大脑执行环境感知、行为控制、人机交互等功能，小脑进行复杂运动建模与控制，肢体则进行各种命令的执行，并保持灵活稳定。人形机器人的系统研制方面，存在关节多、模块多、要求多，缺乏功能－结构－机电－材料一体化设计等方面的挑战，需要解决系统研制、稳定控制、通用智能等方面的难题。

总之，面对机器人数据、芯片算力及软硬件融合等方面的问题，各家科技巨头厂商都在进行深入探索，但距离实现真正的具身智能水平的模型还有较长的一段路要走。

猜你喜欢