|
快手自研视频生成大模型「可灵」上线后,截至目前,申请使用的预约人数已经超过 6.5 万。这一数字引起了行业内的广泛关注和讨论。
原因很简单,OpenAI 的文生视频 Sora发布后,一直处于内测状态,外界无缘得以使用;而快手「可灵」发布即测试,通过快手旗下创作工具快影 App,用户可以直接申请公测,通过后可生成大约2分钟长、分辨率为1080p的文生视频,视觉效果并不逊色于OpenAI的Sora。
文生视频需要消耗大量的计算资源,对模型的能力要求更高,这是国内大型模型厂商尚未充分竞争的领域。令人惊讶的是,快手的「可灵」成为国内大型模型中最早发布的一家,早于字节。
然而,快手的领先优势可能不会持续太久,据行业知情人士透露,字节跳动正在内测中的视频生成大模型很快就会发布。预计与快手类似,字节跳动旗下的视频生成大模型也将通过旗下的创作工具剪映首先上线。
此外,就在「可灵」上线一周后的 6 月 13 日,Luma AI发布最新文生视频模型 Dream Machine,向所有用户免费开放使用,其效率可以达到每 120 秒就能生成 120 帧画面,还能快速生成 5 秒钟的电影级别视觉效果的视频片段,此外,Luma的模型超越快手可灵的地方,还有丰富的美学风格选项。
更多竞争的对手正在赶来的路上。「6月底之前,大模型厂商都会不断推出 Sora 类模型产品,文生视频和图生视频大模型将遍地开花。」大模型行业分析人士认为,此前各家大模型厂商都具备了视频生成能力,只是受到算力成本的限制以及视频效果尚未全面优化,所以并未全面展开。
大规模模型之战,从技术领域的竞争升级到应用领域,从百家争鸣的模型竞争升级到价格战,视频生成大规模模型是否会成为下一个竞争的焦点?答案即将揭晓。
01
弯道超车字节?
「可灵的效果是目前中国 Sora 类的第一,非常意外的是来自快手团队。」行业分析人士认为。
快手自研视频生成大模型「可灵」上线后,让外界意外的,一方面是视频生成的效果可以媲美Sora;另外一方面是其来自快手团队。因为,在此前的大模型竞争中,快手并不是引人关注的一线成员。快手此前发布的通用大语言模型「快意」、文生图大模型产品「可图」的影响范围都相对有限,直到如今的「可灵」。
根据快手「可灵」公布的数据来看,中国版 Sora 确实是快手的竞争对手。
从技术路线上看,快手「可灵」采用的是与Sora相似的DiT架构,该架构使用Transformer代替了传统扩散模型中基于卷积网络的U-Net。快手大模型团队还自研了一款3D时空联合注意力模块和3D VAE网络,以实现更好的时空运动建模和更高效的隐空间编码/解码。
而从「可灵」的官方网站上,可以清楚地看到其产品的卖点。
最引人注意的是,可灵支持生成长达2分钟的30帧视频,分辨率最高1080p,自由定制宽高比,这一点远超Sora和国内大模型厂商。而在生成视频的效果上,可灵强调自己的能力包括生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力这三大优势。
最引人注意的是,可灵支持生成长达2分钟的30帧视频,分辨率最高1080p,自由定制宽高比,这一点远超Sora和国内大模型厂商。而在生成视频的效果上,可灵强调自己的能力包括生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力这三大优势。
最引人注意的是,可灵支持生成长达2分钟的30帧视频,分辨率最高1080p,自由定制宽高比,这一点远超Sora和国内大模型厂商。而在生成视频的效果上,可灵强调自己的能力包括生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力这三大优势。
最引人注意的是,可灵支持生成长达2分钟的30帧视频,分辨率最高1080p,自由定制宽高比,这一点远超Sora和国内大模型厂商。而在生成视频的效果上,可灵强调自己的能力包括生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力这三大优势。
最引人注意的是,可灵支持生成长达2分钟的30帧视频,分辨率最高1080p,自由定制宽高比,这一点远超Sora和国内大模型厂商。而在生成视频的效果上,可灵强调自己的能力包括生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力这三大优势。
而从传播上,「可灵」也区别于以往国内大模型的发布,最先从国外社交媒体上引起关注,然后在国内热度升高,实现了「出口转内销」或者「墙内开花墙外香」的特点。
而从传播上来看,「可灵」与以往国内大模型的发布方式有所不同。它首先在国外社交媒体上引起了关注,然后在国内逐渐升温,实现了「出口转内销」或者「墙内开花墙外香」的特点。这种传播方式使得「可灵」在国内外都受到了广泛的关注。
在推特上,对「可灵」的使用评价和评测非常广泛。
「感觉大家也别等Sora这种又贵又费时的工业级人工智能了,先试试可灵免费用起来。快手这次真是让人惊喜。」
「与国外的 Sora视频生成大模型相比,中国大模型开发者更加深入地理解本土文化,因此大模型生成的内容也更能够更好地满足本土用户的需求。」
「下午购买了一个快影的年费会员,好像就跳过了快手可灵的排队,直接可以通过更改提示来生成视频了,效果非常惊艳呀。生成一个视频的时间,在VIP会员下,大约需要3分钟。」
正是凭借着国外社交媒体的热潮,「可灵」的热度迅速攀升。发布一周后,快手终于在官方公众号上推荐了这款产品,标题为「今天你是否已经体验了‘可灵’的魅力?」
事实上,腾讯和字节等互联网公司,同样拥有视频生成大模型,只是尚未完全公测或者效果不尽人意。字节跳动剪映旗下的产品「即梦」就具备短视频生成功能,用户可以选择不同的运镜类型、视频比例和运动速度,生成时长为3-6秒的视频。然而,与Sora相比,即梦在视频呈现效果和时间长度上并没有展示出相同的优势。
这也更凸显了快手「可灵」令人惊讶的优势,因为行业一直认为要对模型训练做扎实,本质上不存在捷径,如果基础模型做不好,文本生成和图像生成都做不好,何谈视频生成。但意外就在于,快手的视频大模型奇袭成功了。
02
可灵背后的幕后推手
谁才是「可灵」背后的决定性人物?这可能是一个人才流动前仆后继的故事。
就在快手「可灵」正式发布的前几天,快手专家研究员王鑫涛对外做过一个《视频生成的初探及其可控性研究》学术分享,这被认为是快手内部对「可灵」大模型技术层面的思考,相关 PPT 也很快流传出来成为大模型行业研究的重要资料。
「可灵」发布之后,王鑫涛又出现在深圳的一次人工智能学术分享会中,王鑫涛提到在追赶 Sora的过程中,面临的核心挑战在于,如何通过深度学习算法在长时间的视频和复杂的镜头中学习到物理规律,从而确保生成的视频在物理上具有高度的一致性。
因而这是王鑫涛认为最值得深入研究的问题,「传统上,人工智能生成的视频往往只能呈现单一镜头,缺乏复杂场景下的连贯性和真实感。然而,Sora却能在复杂的长视频中实现镜头的流畅切换,同时保持强大的三维、时序和物理一致性。」
事实上,王鑫涛加入快手的时间并不久,目前担任快手视觉生成与互动中心的高级研究员,隶属于快手多模型与人工智能图像中心部门,负责研究视觉内容生成方面的工作。根据公开资料显示,他在去年还是腾讯人工智能实验室的高级研究员,负责领导视觉内容生成方面的工作。
可以说,快手「可灵」奇袭的背后,离不开王鑫涛这样的腾讯前人工智能力量的贡献。
此前腾讯混元开源混元大模型时,就已经公开其具备文本生成视频、图像生成视频、图文生成视频、视频生成视频等多种视频生成能力,已经支持 16秒视频生成。当时混元大模型文本生成图像负责人芦清林就提到,不同模态之间的对齐是难点之一,混元想做视频和音频的同时生成,但要解决二者用一个模型输出的对齐有很大混淆。
而另外一方面,「可灵」走向成功的背后,也意味着昔日快手 AI 团队成员的某种失落。
前快手技术副总裁王仲远,如今已经是北京智源人工智能研究院院长。去年 12月,快手组织架构大调整中,主站、电商与商业化三个事业部下属都进行了重大变革,而负责人工智能业务的王仲远不再担任任何职务。
仅仅半年前,王仲远作为快手 AI &用户增长业务负责人,在快手创作者大会上首次公布了快手 AIGC(快手人工智能创作)的进展,其核心旨在提升短视频内容的创作力和生产力。当时快手已经开放了「可图」大模型产品,支持文生图和图生图(图片生成图片)两类功能,已上线 20 余种 AI 图像玩法。
整个 2023 年,是快手缺少首席技术官(CTO)的一年,也是快手大模型组建团队和业务的落地之年。从组织架构上看,快手大模型团队隶属于快手社区科学线,而业务包含大语言模型、文生图大模型、视频生成大模型等多个方向,但大语言模型和文生图模型相比同行都不尽如人意。
中国版的 Sora 肯定也是王仲远的期待之一,只是不知道他如何看待「可灵」。
中国版的 Sora 肯定也是王仲远非常期待的一个角色,他很想知道玩家们对于「可灵」这个角色的看法和评价。
离开快手之后,王仲远代表智源研究院对外接受过采访,谈及 AGI(通用人工智能)正在加速到来,过去他认为实现科幻片中超级人工智能的场景还需要四五十年的时间,而现在他感觉可能再过四五年 AGI 就会诞生。
「Sora的出现也是一个具有重大意义的时刻,它真正的价值不仅仅是生成精美的视频,更重要的是展示了大模型可能具备理解三维世界的能力。换句话说,Sora 的出现初步证明了世界模型在规模上具有一定的法则。」王仲远认为。
03
第一能维持多久?
当下的快手「可灵」备受好评,但国内 Sora 第一的位置能维持多久?
「可灵」唯一的使用渠道就是快手创作工具快影 App,但快影 App 的下载数据并没有太大的波动。根据七麦数据,App Store 近七日日均下载量仍旧维持在 2 万左右,在应用(免费)和摄影与录像(免费)榜单上的排名依然保持稳定,并没有出现明显的变化曲线。
从商业路径上看,目前「可灵」吸引的更多还是C端消费者。相比文生图和文生文等模型在广告等领域已经有广泛的使用场景,文生视频大模型的使用场景依然有限,所以策略往往先服务于内容生产者,不断扩展消费端的使用场景,最终吸引B端客户和商家付费使用。
更重要的是,国内 Sora 第一的竞争对手正在迅速追赶。
一方面是国内市场,根据消息人士透露,字节跳动旗下视频生成大模型也在内测中,预计很快发布,同时也将依靠旗下创作工具剪映上线。对剪映来说,此前已经上线的「即梦」已经实现了文生视频大模型的相应功能,只是目前这部分功能的优化程度还不够。
而变化更快的是国际市场,就在 6月 13 日,Luma AI首发了自己的视频生成模型 Dream Machine,用户可以通过文字或图片生成高质量的高清视频,比快手「可灵」更进一步的是,Luma 实现了免费全量开放,登录即可使用,无需预约等待。
但与快手「可灵」面临的问题一样,Luma AI 也面临算力不足的问题,使用时需要长时间等待,等待结果也有可能是生成内容失败,所以算力是制约文生视频大模型最大的瓶颈。
大模型行业此前公开过相关数据,大模型要实现 Sora类似的水平,就需要有千卡级别的算力,进一步优化能力则需要万卡级别的算力,这意味着需要具备强大的计算能力,无论是使用英伟达的旗舰 GPU 芯片,还是华为昇腾的国产 AI 芯片。
大规模模型竞争依然处于起步阶段,人工智能(AI)大规模模型本身对云服务来说是额外的好处,如何将其应用到实际场景中并取得良好效果,以及如何降低成本,仍然是当前大规模模型行业面临的共同问题。
相比于字节跳动的大模型策略,快手在大模型上的策略仅仅有「可灵」依然是不够的。字节跳动豆包大模型最明显的策略和标签就是成本低,通过价格战大幅降低模型推理的单位成本,吸引 B 端客户进入火山引擎的云服务之中。如果字节跳动发布视频生成大模型,那一定是实现了成本更低、效果更好的一条路。
无论如何,追赶Sora已经成为2024年大型模型行业的主要共识和任务之一。快手要稳住国内Sora第一的位置,将面临严峻的考验。