对标Sora！国产视频大模型Vidu发布（对标Sora的国内首个全自研文生视频大模型亮相）

今年初，文生视频大模型Sora的亮相引发了整个行业的高度关注，也在资本市场上掀起了一股热潮。时隔两个月，清华团队推出了一个中国版的Sora——视频大模型Vidu，近日正式发布。近期引起了广泛争议。

清华大学团队参与打造

Vidu是一款性能强劲的软件。

4月27日，在中关村论坛未来人工智能先锋论坛上，中国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。据悉，Vidu视频大模型是由清华大学与生数科技联合发布的中国首个长时长、高一致性、高动态性视频大模型。这一模型的发布，标志着中国在视频大模型技术领域取得了显著的进展，能够与国际上的先进模型如Sora相媲美。

据介绍，Vidu模型采用了团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

Vidu模型采用了团队自主研发的U-ViT架构，将Diffusion和Transformer相结合，实现了一键生成高清视频的功能。用户可以轻松生成长达16秒的视频，视频分辨率高达1080P，享受高质量的视觉体验。

在性能方面，Vidu不仅可以模拟真实物理世界，生成细节复杂且符合真实物理规律的场景，例如逼真的光影效果和精细的人物表情，而且还具备丰富的想象力，能够创造出具有深度和复杂性的超现实主义内容。

此外，Vidu能够生成复杂的动态镜头，实现远景、近景、中景、特写等不同镜头的切换，不再局限于简单的固定镜头。特别值得一提的是，Vidu能够理解并生成熊猫、龙等特有的中国元素，展现了对中国传统文化的深刻理解。此外，Vidu还可以根据场景的需要，自动调整镜头的焦距和角度，使得画面更加生动和立体。

同时，Vidu的生成方式是“一步到位”的，即将文本转换为视频的过程直接且连续进行，而且完全依赖于单一模型进行端到端生成，没有涉及到中间的插帧和其他多步骤的处理，这在技术上是一个非常重要的创新。

背后公司生数科技备受关注

Vidu背后依托的是一家名为生数科技的创业公司，该公司的核心成员主要来自清华大学人工智能学院，致力于自主研发世界领先的可控多模态通用大模型。生数科技的首席执行官唐家渝、首席科学家朱军以及首席技术官鲍凡，都是在人工智能和扩散模型领域有着深厚研究的专家。

自成立以来，生数科技备受资本市场的关注，已经成功完成了三轮融资，融资额高达数亿元人民币。投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等知名投资机构。公司的快速发展和Vidu模型的成功研发，充分展示了生数科技在多模态大模型领域的深厚积累和创新能力。

在人工智能领域，生数科技采取的是模型层和应用层并行推进的模式。一方面，他们致力于构建底层通用大模型，以提供强大的模型服务能力。另一方面，他们还专注于打造针对图像生成、视频生成等场景的垂直应用，以满足游戏制作、影视后期等内容创作场景的需求。

大规模模型将成为未来发展的重要组成部分

大模型技术作为人工智能领域的一个重要分支，其未来的发展前景十分广阔，无疑将成为未来发展的重要一环。随着技术的不断进步，大模型技术的应用场景将进一步拓展，从视频和图像生成，到游戏制作、影视后期等内容创作，大模型技术将为各行各业带来革命性的变化，在多个领域发挥更加重要的作用。

首先，大模型技术通过其强大的数据处理和学习能力，正成为推动人工智能技术创新的关键因素。大模型技术具备处理和学习海量数据的能力，能够在图像识别、自然语言处理、机器翻译等多个领域实现前所未有的准确性和效率。

其次，大模型的应用范围正在不断扩大，成为多个行业发展的推动者。大模型具有广泛的跨领域应用潜力，可以被广泛应用于医疗健康、金融服务、教育培训、自动驾驶、智能制造等众多行业。通过提供深度分析和准确预测，大模型能够帮助这些行业提高决策质量，优化服务流程，降低成本，并创造出新的商业模式。

此外，大模型技术在提高生产效率、降低运营成本、创造新的就业机会等方面的潜力，将对经济结构产生深远影响，可能会成为推动经济转型和产业升级的关键驱动力。

此外，大模型技术的发展还有助于提高企业的生产效率，降低运营成本，并且为社会创造更多的就业机会。这些潜力将对经济结构产生深远的影响，有可能成为推动经济转型和产业升级的关键驱动力。

猜你喜欢