中国首个自研视频大模型Vido上线！中国人也有了自己的Sora…（中国第一个自主研发的航空母舰叫什么）

4月27日，未来人工智能先锋论坛在2024中关村论坛年会人工智能主题日举办。在本次论坛上，有一件具有重要意义的事件发生：生数科技联合清华大学正式发布了中国首个长时间持续的，高一致性，高动态性的视频大模型Vidu。

国内首个纯自研的视频大模型，有什么独特之处？

根据介绍，该模型采用了团队原创的Diffusion与Transformer融合的架构U-VT，支持一键生成长达16秒，分辦率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成，时空一致性高等特点。

中国首个自研视频大模型Vido上线！中国人也有了自己的Sora..._图1

值得一提的是，Vidu是自Sora发布之后，全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中，完全有能力与Sora抗衡。

根据现场演示的效果，Vidu能够模拟真实的物理世界，生成细节复杂且符合真实物理规律的场景，例如合理的光影效果、细腻的人物表情等。此外，它还具有丰富的想象力，能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，例如“画室里的一艘船正在海浪中驶向镜头”。

Vidu还能够生成复杂的动态镜头，不只局限于简单的推，拉，移等镜头，而是能够围绕统一主体在一段画面里实现远景，近景，中景，特写等不同镜头的切换，直接生成长镜头，追焦，转场等效果也不在话下，给视频注入丰富的镜头语言。

中国首个自研视频大模型Vido上线！中国人也有了自己的Sora..._图2

需要说明的是，短片中的片段都是从头到尾的连续生成，没有明显的插帧现象。通过这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，从文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

Sora推出两个月后迎头赶上，Vido的未来前景非常广阔。

Sora在今年2月刚刚上线，2个月之后国内便有了Vido，这表明Vido技术团队的工作效率非常高。

Vidu 发布后，清华大学 AI 研究院副院长，生数科技首席科学家表示，“在今年2月，文生视频大模型Sora发布后，我们发现其正好与我们的技术路线高度一致，这也让我们坚定地进一步推进了自己的研究”。

据报道，Sora发布推出后，Vidu团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频的连贯性与动态性。

更难得的是，Vido能够深刻理解并展现中国元素，特别注重文化适应性，能够生成具有中国特色的元素，诸如熊猫、龙等等。既为跨文化交流与传播提供了有力支持，也为我们的文化自信注入了新的活力。

中国首个自研视频大模型Vido上线！中国人也有了自己的Sora..._图3

概括说来，Vidu的快速突破，离不开算法原理，模型架构，算力资源，数据治理，工程实现这5大要素的完美结合。如今的Vido正在加速迭代，未来还将兼容更广泛的多模态能力，为我们带来更多惊喜。而Vido的孵化者生数科技，自成立以来已经获得了多家知名产业机构的投资，完成了数亿元的融资，成为国内多模态大模型赛道的佼佼者。

从某种程度上说，Vido很可能比其他人更早采取了行动…

“Vidu，我们一起做，我们曾经做过，我们会继续一起做”，这是在Vido发布后，朱军教授在朋友圈写下的一段话。

乍一看上去，Vidu是清华大学联合大模型创业公司生数科技用两个半月时间交出的一份新答卷。但事实上，任何一次令人惊艳的表现都离不开长时间的深入研究和精心打磨。

根据生数科技的官方介绍， Vidu 模型之所以取得快速突破，源自于该团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。早在 2022 年 9 月，出于对标当时刚刚开源的 Stable Diffusion，清华团队提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文，里面提出了全球首个 Diffusion 与 Transformer 融合的架构，比Sora 采用的 DiT 架构还要再早两个月。到了去年 3 月，团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser，率先完成了 U-ViT 架构的大规模可扩展性验证，一举实现了从简单的文本到图像扩展，图像文本改写等多种功能。正是基于对 U-ViT 架构的深入理解以及长期积累的工程与数据经验，团队才能在短短两个月里进一步突破了长视频表示与处理的多项关键技术，成功研发出 Vidu 视频大模型。

中国首个自研视频大模型Vido上线！中国人也有了自己的Sora..._图4

3 月份的 Vidu还只能生成 8 秒的视频，就连生数科技的CEO 都认为想要达到Sora的版本效果，至少需要3个月的时间。然而，令人惊讶的是，仅仅一个月的时间，Vidu 在技术上取得了突破，不仅画面效果接近Sora 的水准，视频生成的时长也扩展到了 16 秒。

反观当初被外界一致叫好的Sora，其实也存在着巨大的不足和漏洞。与 Sora合作的加拿大制作公司Shy Kids就向外界披露，声称“从 Sora 生成的素材到最终成品之间的差距，就像买家秀和买家秀之间的差别一样明显。具体来说，生成的原始素材与最终使用素材的比例高达300：1，也就是说，为了得到一秒的有效画面，制作团队需要审查长达300秒的原始素材，对筛选和判断能力提出了极高的要求。

这意味着OpenAI的研究人员最初在开发 Sora的时候，更多地将注意力集中在图像生成的技术层面，却没有考虑到创作者在实际应用中对镜头语言的需求。

中国首个自研视频大模型Vido上线！中国人也有了自己的Sora..._图5

从某种程度上说，Sora这些尚且存在的不足之处恰恰给其他竞争者，尤其是我们国内的研发团队提供了迎头赶上的宝贵时间窗口。不仅仅是Vido，还有许多有望与Sora竞争甚至超越它的大型模型也正在涌现。

跑领先只是一时之快，大模型之战笑到最后才是赢家。我们相信，Vidu或许会成为国内第一个有希望追赶 Sora 的视频生成大模型，但绝不会是唯一的那一个。

猜你喜欢