中国版Sora惊艳亮相,原生16秒超清视频火遍世界,签约多个大客户。(中国版本图书馆-馆藏数据检索)

中国版Sora惊艳亮相,原生16秒超清视频火遍世界,签约多个大客户。_图1

【新智元导读】近来,国产AI视频模型的生成能力令国外网友感到震惊。最近,中国首个超长时长、高性价比、可在设备端使用的Sora级视频模型问世了,这个模型是由国内的黑马公司与清华大学合作打造的。与其他公司不同的是,这个模型的创建目的是为了实现全球范围内的应用。

Sora爆火之后,视频生成领域不断迎来新的进展,视频的时代正在全面开启!

近日,在奇绩创坛路演日上,世界模型公司「极佳科技」联合清华大学自动化系正式发布中国首个超长时长、高性价比、端侧可用的Sora级视频生成大模型「视界一粟 YiSu」,引起社会各界广泛的反响和关注。

近日,在奇绩创坛路演日上,世界模型公司「极佳科技」联合清华大学自动化系正式发布中国首个超长时长、高性价比、端侧可用的Sora级视频生成大模型「视界一粟 YiSu」,这一消息引起了社会各界的广泛反响和关注。

该模型具有原生16秒的超长时长,超大运动范围和超强的表现力。

总的来说,「视界一粟 YiSu」具有以下特点:

– 拥有模型原生的16秒超长时长,并可生成至1分钟以上;

– 拥有模型原生的16秒以上的超长时长,并且可以生成超过1分钟的视频;

– 同时还拥有超大运动能力、超强表现力、对物理世界有深刻的理解等众多优势;

– 更重要的是,YiSu模型具有更低的成本、更快的速度和可在端侧使用的特点。

基于此,团队希望通过YiSu模型卓越的性能和出色的性价比,更快地实现长视频生成的大规模产品应用。

不止步于DiT,自研的视频生成技术路线

年初Sora的爆火,让DiT(数字货币交易)受到了业内极大的关注,很多公司和项目也开始复现DiT(数字货币交易)路线。

极佳科技和清华大学研究人员在视频生成技术路线上有着丰富的积累和独特的理解,在autoregressive(自回归)、Masked Token(掩码标记)、DiT(深度图像生成)、UNet(U型网络)等不同路线方面均拥有丰富的经验。

此前,团队提出了一项名为WorldDreamer的创新项目,该项目是全球首次以Transformer和LLM(Masked Token路线)为核心的视频生成工具。

中国版Sora惊艳亮相,原生16秒超清视频火遍世界,签约多个大客户。_图2

项目地址:https://world-dreamer.github.io/

「视界一粟 YiSu」基于团队自研的视频生成大模型技术,并没有止步于DiT,而是融合了语言-视觉模型(LLM)和扩散模型的自研架构,结合了各种路线的优势,在多模态融合、训练效率、推理效率、模型效果等方面进行了极致的优化,从而打造出了视频生成的最佳解决方案。

这家公司有点独特,可能和其他视频生成公司的出发点都不一样!

「我们做视频生成是为了实现世界模型」,极佳科技创始人兼CEO黄冠博士表示。

被问及做视频生成的出发点是什么?

黄冠博士表示:「我们可能和市面上目前所有从事视频生成的公司的出发点都不一样。」

「我们公司在成立之初就认识到,自动驾驶、通用机器人等物理世界通用智能的主要限制是数据问题,随着生成式AI、大语言模型等技术的进步,我们很早就认识到数据最好的来源就是世界模型。同时,我们也很快认识到,世界模型的核心是视频生成。」

「所以,从去年9月份开始,我们发布了全球首个真实世界驱动的自动驾驶世界模型工作DriveDreamer。自那时起,我们对视频生成和世界模型的底层架构进行了统一,将视频生成与通用世界模型相结合,以加速通用智能的发展。」

未来更重要的事情是「世界模型」的建立和应用!

世界模型通过对未来的预测和推测来增加对世界的理解能力,对于自动驾驶、机器人、具身智能等领域的发展具有至关重要的作用。

具体而言,世界模型在数据生成、闭环仿真、端到端方案等方向都具有重要的价值。

具体来说,世界模型在数据生成方面可以用于生成真实世界的数据,以便用于训练和测试机器学习模型。在闭环仿真方面,世界模型可以用于模拟真实世界的环境,以便测试和验证各种系统和算法的性能。而在端到端方案方面,世界模型可以用于构建完整的系统,从输入到输出实现端到端的功能。

基于视频生成同款架构,用于自动驾驶场景世界模型的效果

基于视频生成同款架构,用于机器人场景世界模型的效果

与此同时,极佳科技在世界模型的技术研发上保持行业领先:

– 2023年9月,极佳科技推出了全球首个真实世界驱动的自动驾驶世界模型DriveDreamer,早于Wayve的GAIA-1;

– 2024年4月,极佳科技进一步更新了DriveDreamer-2,继续保持了业内领先的性能;

– 2024年5月,极佳科技联合国内外多家单位推出了全球首篇通用世界模型综述,该综述通过260余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论,该综述还审视了当前世界模型的挑战和局限性,并展望了它们未来的发展方向。

– 2024年5月,极佳科技与国内外多家单位合作,发布了全球首篇通用世界模型综述。该综述通过研究了260余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详细的分析和讨论。综述还对当前世界模型面临的挑战和局限性进行了审视,并展望了未来的发展方向。

超级应用和数据引擎的两个方向正在进行商业化,旨在建立一个智能闭环飞轮,包括基础模型和商业应用。

极佳科技CEO黄冠博士认为:

「在AI 1.0时代,大家主要依靠的是基于特定场景的数据闭环,通过不断优化模型和应用效果来推动发展。而进入AI 2.0时代,最重要的是要同时注重基础模型和商业应用两方面的发展,以构建一个完整的智能闭环,从而形成一个高效的智能飞轮。极佳科技希望通过基础模型和商业应用之间的智能闭环飞轮,加速迈向通用智能时代。」

基于「视界一粟 YiSu」大模型,极佳科技的商业应用从两个方向切入,一个是「视频-Native」的超级应用,即通过原生视频的方式进行应用,提供更加沉浸式的体验和更高的用户参与度。另一个方向是通用智能的新一代数据引擎,即通过智能算法和数据分析技术,提供更加全面和准确的数据支持,帮助企业做出更明智的决策。

在超级应用方面,极佳科技正在努力开发适应通用智能时代的全新应用,包括「AI-Native」和「视频-Native」。这些应用利用先进的基础模型,为用户带来全新的体验。同时,通过用户的反馈,不断改进和升级基础模型,以适应不断变化的需求。

数据引擎方面,极佳科技认为世界模型是未来通用智能最重要的数据来源。基于领先的世界模型技术,极佳科技获得业内首个世界模型商业化定点和落地,签约多家主机厂和大客户,服务自动驾驶、机器人等具身智能客户几十余家。

极佳科技希望通过世界模型和数据引擎,与各行各业合作,共同加速实现物理世界的普遍智能化。

世界级的人工智能综合团队:拥有顶尖的技术、产业和创业经验

最后,再看一下「视界一粟 YiSu」背后的团队——极佳科技,这是一个拥有世界级人工智能综合团队的公司。

极佳科技的核心团队由来自顶尖院校和产业巨头的优秀人才组成:

CEO黄冠是清华大学自动化系博士,具有超过十年的全球领先的人工智能技术经验。他曾在微软、三星和地平线等知名公司担任算法工程师,并领导过多个由百人组成的算法团队。此外,他还在人工智能、自动驾驶和大模型等领域有着连续创业的经验。

首席科学家朱政是中科院自动化所的博士,也是清华大学自动化系的博士后。他在AI方向上发表了超过50篇顶级论文,并被引用超过1万次。

产品负责人孙韶言是中科大博士,曾担任阿里云总监和地平线产品线总经理;

算法负责人陈新泽是中科院硕士,多次获得人工智能比赛世界冠军,拥有丰富的算法研发、应用和基础设施经验;

工程负责人毛继明是百度赢彻T10级别架构师,曾担任Apollo仿真和工程负责人,拥有超过16年的数据、工程和分布式架构经验。

核心团队拥有超过十年的人工智能技术积累,在人工智能方向拥有世界级的研发能力,发表AI顶级论文200余篇,在过去十年的人工智能技术浪潮中取得了全球领先的成绩,曾获得目标跟踪全球最权威赛事VOT世界冠军、人脸识别全球最权威赛事NIST-FRVT世界冠军、图像物体识别全球最权威赛事COCO世界冠军、自动驾驶全球最权威评测nuScenes世界冠军,发布SiamRPN、WebFace260M、BEVDet、DriveDreamer等多个视觉和AI方向知名或开创性技术成果。

团队同时还拥有丰富的大规模产业落地经验,曾参与中国第一款嵌入式人工智能芯片的研发和应用,负责中国规模最大的智慧城市系统的研发和应用,负责中国规模最大的数据闭环平台的研发和应用,负责Apollo仿真平台的研发和应用。

在通用智能时代,拥有领先的技术能力和规模化的产业落地经验是非常重要的,这两者相互支撑。极佳科技的核心团队凭借在研究、工程、产品、商业以及创业等方面的顶尖综合积累,构建了基础模型和商业应用的智能闭环飞轮。

极佳科技成立于2023年,目前已经获得多家一线财务投资机构、产业投资机构的投资,同时获得了行业客户的广泛认可。

年初Sora的爆火,以及「视界一粟 YiSu」的推出,正式标志着视频生成和世界模型方向正在进入快速爆发的Scaling Law时代,未来极佳科技希望通过更多的技术和产品创新,为用户和客户提供更多的价值,加速走向通用智能时代!

0
分享到:
没有账号? 忘记密码?