对标Sora!国产视频大模型Vidu发布 (对标Sora的国内首个全自研文生视频大模型亮相)

今年初,文生视频大模型Sora的亮相引发了整个行业的高度关注,也在资本市场上掀起了一股热潮。时隔两个月,清华团队推出了一个中国版的Sora——视频大模型Vidu,近日正式发布。近期引起了广泛争议。

01

清华大学团队参与打造

Vidu是一款性能强劲的软件。

4月27日,在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。据悉,Vidu视频大模型是由清华大学与生数科技联合发布的中国首个长时长、高一致性、高动态性视频大模型。这一模型的发布,标志着中国在视频大模型技术领域取得了显著的进展,能够与国际上的先进模型如Sora相媲美。

据介绍,Vidu模型采用了团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

Vidu模型采用了团队自主研发的U-ViT架构,将Diffusion和Transformer相结合,实现了一键生成高清视频的功能。用户可以轻松生成长达16秒的视频,视频分辨率高达1080P,享受高质量的视觉体验。

在性能方面,Vidu不仅可以模拟真实物理世界,生成细节复杂且符合真实物理规律的场景,例如逼真的光影效果和精细的人物表情,而且还具备丰富的想象力,能够创造出具有深度和复杂性的超现实主义内容。

此外,Vidu能够生成复杂的动态镜头,实现远景、近景、中景、特写等不同镜头的切换,不再局限于简单的固定镜头。特别值得一提的是,Vidu能够理解并生成熊猫、龙等特有的中国元素,展现了对中国传统文化的深刻理解。此外,Vidu还可以根据场景的需要,自动调整镜头的焦距和角度,使得画面更加生动和立体。

同时,Vidu的生成方式是“一步到位”的,即将文本转换为视频的过程直接且连续进行,而且完全依赖于单一模型进行端到端生成,没有涉及到中间的插帧和其他多步骤的处理,这在技术上是一个非常重要的创新。

02

背后公司生数科技备受关注

Vidu背后依托的是一家名为生数科技的创业公司,该公司的核心成员主要来自清华大学人工智能学院,致力于自主研发世界领先的可控多模态通用大模型。生数科技的首席执行官唐家渝、首席科学家朱军以及首席技术官鲍凡,都是在人工智能和扩散模型领域有着深厚研究的专家。

自成立以来,生数科技备受资本市场的关注,已经成功完成了三轮融资,融资额高达数亿元人民币。投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等知名投资机构。公司的快速发展和Vidu模型的成功研发,充分展示了生数科技在多模态大模型领域的深厚积累和创新能力。

在人工智能领域,生数科技采取的是模型层和应用层并行推进的模式。一方面,他们致力于构建底层通用大模型,以提供强大的模型服务能力。另一方面,他们还专注于打造针对图像生成、视频生成等场景的垂直应用,以满足游戏制作、影视后期等内容创作场景的需求。

03

大规模模型将成为未来发展的重要组成部分

大模型技术作为人工智能领域的一个重要分支,其未来的发展前景十分广阔,无疑将成为未来发展的重要一环。随着技术的不断进步,大模型技术的应用场景将进一步拓展,从视频和图像生成,到游戏制作、影视后期等内容创作,大模型技术将为各行各业带来革命性的变化,在多个领域发挥更加重要的作用。

首先,大模型技术通过其强大的数据处理和学习能力,正成为推动人工智能技术创新的关键因素。大模型技术具备处理和学习海量数据的能力,能够在图像识别、自然语言处理、机器翻译等多个领域实现前所未有的准确性和效率。

其次,大模型的应用范围正在不断扩大,成为多个行业发展的推动者。大模型具有广泛的跨领域应用潜力,可以被广泛应用于医疗健康、金融服务、教育培训、自动驾驶、智能制造等众多行业。通过提供深度分析和准确预测,大模型能够帮助这些行业提高决策质量,优化服务流程,降低成本,并创造出新的商业模式。

此外,大模型技术在提高生产效率、降低运营成本、创造新的就业机会等方面的潜力,将对经济结构产生深远影响,可能会成为推动经济转型和产业升级的关键驱动力。

此外,大模型技术的发展还有助于提高企业的生产效率,降低运营成本,并且为社会创造更多的就业机会。这些潜力将对经济结构产生深远的影响,有可能成为推动经济转型和产业升级的关键驱动力。

0
分享到:
没有账号? 忘记密码?