抖音和快手在AI领域展开竞争。（抖音与快手对比分析）

“追赶”OpenAI的中国公司们，步伐越来越迅猛了。

6月6日，快手发布了AI视频生成模型“可灵”，视频生成时长直接超过了Sora，达到了120秒，且已在快影App中对创作者开放邀测。过去几天中，一些自称获得测试资格的博主发布了他们使用“可灵”生成的AI视频，原本低调的快手AI在海内外社交媒体上迅速引起了广泛关注。

抖音和快手在AI领域展开竞争。_图1

X博主发布的带有“可灵”水印的视频

在Sora刚刚推出的时候，其生成的视频时长和效果被一些创作者认为非常适合短视频创作，很可能会给今天的短视频行业带来颠覆，还引发了“Sora杀死剪映”的热议。

如今，Sora尚未对剪映出手，但抖音的老对手快手却正在借助“可灵”在AI视频生成赛道给快影上提速。对于5月中旬刚刚推销过一波AI大模型产品的抖音集团而言，与快手的竞争正在加剧。

内容之争是非常重要的

在Sora对标大战中，快手发力AI的战术目标，更像是要绕到对手身后围绕“内容创作者资源”展开一场“突袭”。

说到短视频平台对AI视频生成技术上的关注，就不得不分析一下AI生成的视频内容，对于用户的价值，以及这些内容对用户的心智产生的影响。

“Sora类模型生成的内容最大的问题是‘听起来很酷’。”AI类视频创作者阿达（化名）告诉虎嗅，粉丝需要的是有新鲜感或者有情绪价值、内容价值的视频，Sora类视频的特点是“逼真”，但只是模仿真实世界的AI视频，不管是开汽车还是东京漫步，对于用户来说基本上提供不了任何价值，而新鲜感也会很快淡化。

“Sora类模型生成的内容最大的问题是‘听起来很酷’。”AI类视频创作者阿达（化名）告诉虎嗅，粉丝需要的是有新鲜感或者有情绪价值、内容价值的视频，Sora类视频的特点是“逼真”，但只是模仿真实世界的AI视频，不管是开汽车还是东京漫步，对于用户来说基本上提供不了任何价值，而新鲜感也会很快消失。

“你第一次刷到AI生成的视频，一个老虎迈着有点奇怪的步伐往前走，你可能觉得好笑。但你刷到第二条类似内容时很可能就不会停下来了。”阿达认为，有那么多有趣的真实视频，用户为什么要浪费时间去观看由AI生成的虚假视频。

抖音和快手在AI领域展开竞争。_图2

“可灵”生成的AI视频

很多短视频平台对AI视频的态度亦是如此——从用户的角度出发来评估价值。

多位人工智能视频和数字人内容创作者对虎嗅表示，一些视频平台似乎对人工智能合成内容持保留态度，这类视频的流量较少，有的甚至会被限制流量。

除此之外，AI内容的真实性和安全性也是平台需要考虑的问题。AI换脸、造假以及各种深度伪造的诈骗案件屡见不鲜，如果大量逼真的AI合成视频涌入平台，很可能会给视频平台带来更大的甄别压力。目前，各大内容平台都有相关限制，AI生成的内容都会被标注为“作品疑似AI合成，请谨慎甄别”。

然而，对于快手而言，AI视频模型的价值可能并不仅限于用户方面。

多年以来，快手一直试图调整自己与抖音在用户画像上的差异，并适度淡化“下沉”标签，而这就意味着快手需要丰富“内容供给”，扩大内容种类、风格，而关键资源正是创作者。目前来看，在快影当中提供AI生成视频功能，很可能是吸引优秀创作者的一个好方法。

多年以来，快手一直试图调整自己与抖音在用户画像上的差异，并适度淡化“下沉”标签，而这就意味着快手需要增加更多的内容供给，扩大内容种类、风格，而关键资源正是创作者。目前来看，在快影当中提供AI生成视频功能，很可能是吸引优秀创作者的一个好方法。

截至发稿，快影App中显示的“可灵”内测申请人数已超过40000人。据虎嗅了解，其中相当多的申请者是创作者和创作团队。从目前来看，“可灵”无疑是给快影做了一波大营销活动。

此外，人工智能视频生成功能还能吸引更多新的创作者加入。

某MCN机构负责人告诉虎嗅，从过去一年短视频平台的热点内容看，未来一段时间里平台对高质量内容的判断大概会聚焦在以下方面：能够引起广泛用户参与、与文化自信和教育相关、具有社会责任感、提供实用信息、娱乐性强、能够激发UGC创作，以及能够建立个人品牌和影响力。

AI视频生成功能通过简化视频制作流程，可以在“引起广泛用户参与、激发用户生成内容创作”这两个方面发挥积极作用。对于创作者来说，一方面可以帮助传统的图文创作者利用现有内容进行视频创作，从而加快内容迁移的速度。另一方面，它还可以降低普通用户参与视频创作的门槛。

在短视频竞争中，其他短视频平台的参与者似乎也开始关注到了AI视频的创作逻辑，并且正在不断增加对AI视频模型的投入。

在5月中旬召开的腾讯云产业峰会上，腾讯首次公布了混元的16秒视频生成能力，并提出在未来2-3个月内计划开放文生视频API接口，以及在2024年第三季度的目标是将视频生成时长突破30秒（在腾讯云的一次媒体沟通会中，混元大模型相关负责人曾表示年内可以达到60秒）。

相比抖音和快手，视频号的优势是庞大的用户规模，眼下的短板之一则是内容供给丰富度，然而视频号在内容广度和深度方面仍与抖音和快手存在明显差距。短视频和直播平台的内容质量对培养用户习惯和增加使用时长至关重要，同时庞大的内容库也是平台变现的基础。

相比抖音和快手，视频号的优势在于拥有大量的用户。然而，目前视频号的一个不足之处是内容的丰富度。与抖音和快手相比，视频号在内容的广度和深度方面仍然存在明显的差距。短视频和直播平台的内容质量对于培养用户习惯和增加使用时长非常重要，同时庞大的内容库也是平台实现盈利的基础。

从这个角度来看，视频号面临的挑战和机会似乎与快手相似，都是要加快吸引外部创作者来丰富内容生态，并推动现有优质图文创作者向视频领域转移。

AI竞赛中的成本考虑

在过去的一年多时间里，抖快在人工智能领域的竞争日益激烈。

抖音集团一直在AI领域保持着持续的动作和传闻。从以10亿美元购买GPU开始，到利用API“扒”ChatGPT数据，再到豆包在国内AI应用榜上夺冠，抖音集团一直是AI行业中低调的明星。相比之下，快手在生成式AI方面的动作似乎较少。他们的首个自研大模型“快意”直到2023年底才加入到第三批网信办大模型备案。

在AI视频方面，抖音集团虽然没有Sora类的强大AI视频生成模型，但也发布了PixelDance、MagicVideo、AnimateDiff-Lightning等视频模型，目前抖音集团也有专门的AIGC产品即梦（Dreamina），可以完成一些短视频生成和编辑的功能。

除了AI模型和产品方面的研究，抖音集团在基础设施方面投入巨大。据传闻，抖音集团已经投资了10亿美元用于采购GPU。此外，抖音集团旗下的火山引擎也在国内大型模型价格战中发挥了重要作用，成为了第一个推出的厂商。与此相比，快手在云基础设施方面的关注范围相对较小，主要集中在音视频和AI领域。

在AI视频方面，快手的进程也不高调，但并非风平浪静。2024年5月初，快手专家研究员王鑫涛曾在一次学术会议中做过一次题为《视频生成的初探及可控性研究》的分享，其中就提到了快手的视频生成方案Tune-A-Video。

在AI视频方面，快手的进展也不太引人注目，但并非没有动静。2024年5月初，快手的专家研究员王鑫涛在一次学术会议上做了一次题为《视频生成的初探及可控性研究》的分享，其中提到了快手的视频生成方案Tune-A-Video。

技术小贴士：

Tune-A-Video的关键是“时空自注意力机制”。这种技术可以结合空间（图像）和时间（视频帧序列）上的信息，以提高视频生成和处理的效果。假设视频内容是一只小狗在草地上快乐地奔跑。时空自注意力机制的工作过程是：

空间自注意力模型会分析每一帧中小狗身体的各个部分，例如头部、腿部、尾巴之间的相互关系。

时间自注意力会关注每一帧中小狗的位置和姿势变化，确保小狗在跑步的过程中动作是连贯的，不会出现瞬间移动或姿势不连贯的现象。

综合考虑这些信息后，模型能够生成一个流畅、自然的跑步小狗的视频，即使用户修改了小狗的颜色或背景场景，生成的视频仍能保持运动的一致性和视觉上的连贯性。

技术之争的背后，一定潜藏着对未来商业化的谋篇布局。然而人工智能技术如何在商业领域发展，目前仍是短视频以及很多行业讨论的核心问题之一。

AI视频模型要商业化至少需要解决两个问题，第一是技术层面的视频生成质量和效率，第二是成本。

AI视频模型要商业化至少需要解决两个问题，第一是提高技术层面的视频生成质量和效率，第二是降低成本。

从Runway、Pika等人工智能公司的3、4秒视频模型，到OpenAI推出Sora，许多业内专家都没有预料到技术发展的如此迅猛。Sora发布之后，其他人工智能公司更是以惊人的速度追赶上来，令人瞠目结舌。

“AI生成视频的质量可能不会长期困扰行业，但成本问题很难解决。”一位关注AI视频的投资人告诉虎嗅，视频模型的算力需求比语言模型大很多，优化的难度也更高。“从ChatGPT和Sora的开放程度就能看出来，ChatGPT可以开放给亿级用户，而Sora至今只有少数人试过。”

据主流猜测，Sora模型的参数量大约为30亿，这意味着它包含了相当庞大的参数数量。据推测，Sora模型的训练数据可能涵盖了过去五年的YouTube所有视频，这是一个非常庞大的数据集。

根据投资机构Factorial Funds发表的一篇博文分析，Sora模型的一次训练大约需要4200~10500块英伟达H100 GPU，并且需要训练一个月的时间。这是一个相当庞大的计算资源投入。

30亿参数相比于GPT-4的1.8万亿参数，训练成本会大大降低。然而，与语言模型相比，视频模型在推理端需要更多的资源投入。

举个例子，假设我们想要制作一个时长为2分钟的视频。在不考虑视频的连贯性和时空一致性的情况下，我们可以将AI生成的视频拆分成一帧一帧的图片。

根据某国内AI公司最近公布的AI图片生成最大折扣价计算，生成一张图片的价格最低为0.06元，每秒生成25帧，每秒生成的图片总共花费1.5元，生成一个120秒的视频的成本为180元。

以快手开启的“可灵“邀测为例，假设“可灵”上线后3天内的内测申请者全部通过，每人每天试验20分钟视频，则每天的测试开销约为7200万元。快手2024Q1期内利润为41亿元，如果要满足全部“可灵”测试需求的话，2个月可能就要面临亏损了。

抖音和快手在AI领域展开竞争。_图3

“可灵”内测申请提交通知

这还只是按生成单张图片计算的价格，如果要保证这25帧图片连续一致，价格会成倍上涨。一位AI视频模型开发者告诉虎嗅，AI视频生成的难点在于保持多个图片的一致性，相比于普通的AI图片生成，算力消耗和成本会大幅提升。

这还只是按生成单张图片计算的价格，如果要保证这25帧图片连续一致，价格会成倍上涨。一位AI视频模型开发者告诉虎嗅，AI视频生成的难点在于保持多个图片的一致性，相比于普通的AI图片生成，算力消耗和成本会大幅提升。AI视频生成需要确保多个图片之间的连续性，这意味着每一帧都需要与前一帧保持一致，这对算力和成本都提出了更高的要求。

目前，要实现AI视频生成的商业化落地需要投入巨大的成本，特别是推理成本更是非常高昂。

Factorial Funds在Sora分析博文中提到，目前TikTok每天上传的视频总时长约为1700万分钟，而YouTube每天上传的视频总时长约为4300万分钟。

假设人工智能视频模型真的成为生产力，可能会在50%的TikTok短视频和15%的YouTube视频中得到应用，这样的普及率下，需要的最高算力可能达到72万块H100 GPU。根据目前国内的GPU价格，每天的成本将超过千亿。

不过，这种试算在今天看来其实意义不大。人工智能视频模型要真的大规模渗透，模型的成本和效率可能需要比今天低几个数量级。到时候全球市场上主流图形处理器（GPU）的算力如何，使用成本如何也是未知数。

除了抖快之外，越来越多的创业公司也开始进入这个领域

6月6日奇绩创坛2024春季创业营路演上半场的最后一个项目极佳科技，展示了一款名为“视界一粟YiSu”的AI视频生成大模型。

极佳科技的视频展示

这款模型生成视频的原生时长为16秒，最长可达1分钟，据极佳科技介绍，该模型对算力需求不高，已经可以实现“端侧”运行，相关应用接近Sora效果。

项目介绍结束，现场数百位投资人难得地爆发了喝彩和掌声，资本对人工智能视频生成技术的关注仍在持续增加。

在天使轮的极佳科技路演中，AI视频生成技术的主力生数科技和Pika，先后宣布了最新的融资消息。两家公司的融资额都非常可观，生数科技宣布获得了数亿元人民币的融资，而Pika则筹集到了8000万美元的资金。

AI视频模型公司的研究大多集中在提高视频质量和降低推理成本。许多研发AI视频生成模型的团队都表示他们在工程方面取得了重要突破，同时也在不断降低算力需求。生数科技的CEO唐家渝表示，“我们的团队已经积累了丰富的工程化经验，能够在大规模GPU集群上高效兼容、低成本地进行模型训练。”目前，生数科技和清华大学联合开发的模型Vidu视频生成时长已经达到了32秒。

在抖快这样的短视频巨头的竞争中，独立AI公司的优势在于早期的技术积累和更灵活的开发模式。

然而这些公司目前的融资规模和当前的市场体量匹配度并不高，如果AI视频模型真要应用在短视频这样的面向消费者的赛道上的话，独立AI公司在没有巨大技术突破的情况下，很可能会选择在其他领域寻找发展机会。

大型企业对于这些人工智能公司的态度也在逐渐模糊不清。

细看生数科技的这轮融资，其中新增了百度。虽然生数科技的早期投资人中有百度风投的身影，但百度风投与百度之间其实只是风险投资公司和母公司的关系，而百度在过去一年多里对模型公司“亲自”出手，只有生数科技这一次。

虽然百度在刚刚推出文心大模型后不久，就提出过一些Text2Video的相关模型和技术，并演示了AI文生视频功能，但后续一直没有正式发布相关模型或产品。

目前，包括硅谷巨头在内的多数平台型大公司在人工智能视频模型方面均没有公布过大额投入。

猜你喜欢