张鹏认为现在谈视频生成的商业化还为时过早(张鹏张鹏)

哥几个,国内的视频生成应用,又上新了。。

就在今天,大家可能还沉浸无法自拔的时候,国内的智谱 AI 上线了一个名为清影的 AI 生成视频产品。

张鹏认为现在谈视频生成的商业化还为时过早。_图1

Sora类似的 DiT 架构,支持文生成视频和图生成视频,生成一个 6s 的视频大约需要 30秒。别的不说,这生成速度放现在一众视频生成应用里,确实拿得出手。

看官方给的 demo,这清晰度,还有这水花和波纹,如果不仔细看可能真就让AI给忽悠过去了。

不过这个吗喽打工,就差点意思了。手指敲键盘部分还有背景基本上都是变形的,但这埋头苦干的样子还挺符合打工人的形象。

主要这玩意儿现在是免费的,上线之后世超第一时间就测评了一波。另外,我们也有幸跟智谱CEO张鹏聊了聊,谈了谈他对于视频生成应用和大模型的一些看法。

首先,我们还是先来看清影响到底是什么水平?

先是比较考验提示词能力的文生视频,按照镜头语言+主体细节+光影的公式,世超随意发挥了一把。

提示词:

电影风格,从侧面拍摄,镜头聚焦在面部,写实描绘,夜晚,一个长发女人坐在公交车靠窗的位置,眼睛望向窗外不断变化的街景,忽明忽暗的光线打在她的脸上,画面弥漫着孤独感

别的不说,清影的提示词中文友好,大概 20s 的时间就结束了,在生成时长上几乎可以完胜大部分现役视频生成应用。( 作为对比,可灵生成一个5s左右的视频需要几分钟甚至更长 )

效果上,面部光影在随着街景发生变换,还有过程中眨眼睛的细节,也很自然。特别是人物面部的一致性,6s 的视频,几乎没有看到有变形的地方。

除了窗外的街景要扣分以外,已经可以被认为是一个符合要求的 AI 视频作品了。

还有这头狮子。

提示词:

写实描绘,通过近景特写镜头展现,一只狮子紧盯着不远处的羚羊,身体微微起伏,随时准备出击

风吹着旁边的狗尾巴草,身体上的起伏的确是有的,左上角已经出镜的动物,非要说是羚羊也能圆过去。只不过这狮子的状态不太像是要捕猎,更像午觉刚睡醒。

既然日常的场景还算得心应手,我们再换个天马行空的试试:一条在隧道中自主飞舞的反光织物。

隧道、反光织物、自主飞舞,包括隧道内的灯光以及应有的尽头光芒,提示词中的要点基本都理解到了,而且生成的效果也非常流畅,看上去真有点奇异博士悬浮斗篷的意味。

继续让 AI 发挥想象力,看看什么叫做 “ 五彩斑斓的黑 ”。

测试到这,清影文生视频在生成速度上表现出色,对提示词的捕捉几乎无遗漏,但生成效果中仍有许多细节处理不够到位。

就比如视频中文字的生成不够准确,把 “ WEET ” 变成了一串乱码。

提示词:

The camera zooms in, and the background is a vibrant shade of yellow. An artistic billboard adorned with the word “SWEET” is enveloped in a rich, decadent chocolate sauce, which cascades down in a slow, tantalizing motion.

理解不了物理世界规律的问题,也是反复教导无效的。最经典的,篮球在这位老哥手上,基本就是隔空在闪,看不出有一点弹性,不是我说,当年的《篮球火》就应该让AI来拍。

提示词:

镜头不动,傍晚,一个男人在球场拍打着篮球

当然,这些也都是目前视频大模型的普遍问题了,即便是 Sora 本身,也难免会出现错误。

另外,图生视频这边,我们同样简单测试了几个。

像幼苗不断朝着上方延展生长,初看之下似乎很符合植物的生长规律。

世超还请公司顶流火锅出来亮相了一波。前 3 秒的效果还凑合,就是这站起来之后,都快给咱锅哥整出影分身了。

火锅:溜了溜了

反正测试下来,世超对清影最大的感受,就是生成速度对得起官方的宣传。

至于生成效果,一些特定场景下确实让人眼前一亮,但依旧无法完全解决,诸如理解不了物理规律等业内视频大模型的通病。

智谱技术人员告诉我们,他们的技术路线实际上是逐步推进的。大致意思是,从自然语言理解和生成指令的抽象能力开始,然后逐步将这种能力具体应用到图片、视频、声音等不同模态上。

只不过这条技术路线,同样也会受限于很多方面,例如计算能力,以及数据。

一个是相比于大语言模型的文本数据,视频需要的数据可能从这两三年才开始收集、做标注,能用的数据少之又少。

张鹏认为现在谈视频生成的商业化还为时过早。_图2

另外,视频数据的质量亦显不足。

高质量的文本数据包括了文本的完整性、内容之间的逻辑性、用词的规范性还有内容的知识性等等。换到视频数据也一样,甚至视频数据里包含的细节要复杂得多,像什么视频内容的丰富性,是不是高清,运镜分镜又是怎么处理的。。。

简而言之,视频模型所需的数据量较少,获取成本也更高。

由于底层的算力、数据,导致的视频内容可控性、画面闪烁和帧率等等一系列技术问题,即使是智谱,也认为目前讨论视频大模型的商业化,仍然为时尚早。

张鹏认为现在谈视频生成的商业化还为时过早。_图3

但是话又说回来,今年视频生成应用的接连涌现,也表明了一个事实:视频生成的方向是可行的,现在大家都在往同一个方向努力,剩下的只是时间问题。

而除了对视频生成应用的探讨以外,被称为大模型四小龙之一的智谱,不仅是在视频生成上有所布局,如果熟悉国内 AI 圈的人可能听说过,智谱几乎是全线在对标 OpenAI。

我们这次也跟智谱 CEO 张鹏聊了聊,他对于大模型行业的一些见解。

张鹏认为现在谈视频生成的商业化还为时过早。_图4

可能大家也知道,今年上半年技术派的杨植麟和市场派的朱啸虎,针对大模型行业发表了不同的观点。杨植麟认为短期目标应该服务长期的 AGI 愿景,而朱啸虎则觉得目前 AI 行业的商业化和盈利更重要,这在当时还引发了不小的讨论。

还有前阵子,百度 CEO 李彦宏提出“开源大模型将越来越落后”的观点,也引发了热议。

针对这些备受关注的话题,我们尝试询问了首席执行官 张鹏的观点。

张鹏认为现在谈视频生成的商业化还为时过早。_图5

从人工智能这个学科产生到现在已经过去了将近七十年的时间,早期发展的速度可能会相对慢一些,最近几年突飞猛进,相信大家已经感受到了。

当然很多人也预测人工智能可能会在未来走向成熟,或者像技术成熟度曲线一样,到达一个顶峰之后进入衰退期。但我们深入研究这项技术的人会发现,其实目前仍然有许多的挑战值得去探索。

有一些趋势是非常明显的,比如超级认知智能、超级对齐、原生多模态技术等等。它们的泛化能力、对世界的理解,包括物理规律的理解等都有望达到更高的层次。

另外,智谱也在进行一些前沿探索,包括基于超级认知和超级对齐技术,以及多模态混合训练的大模型(GLM-4.5 及后续升级模型);人类的“无意识”学习机制,这项技术名为GLM-zero,研究将进一步拓展人类对意识、知识、学习行为的理解。

“ 我们的目标定在 AGI,这里面每一个问题的突破都有可能带来飞跃式的发展。”

张鹏认为现在谈视频生成的商业化还为时过早。_图6

看得出来,张鹏总虽然没有直接对争议发表观点,但人工智能通用智能的目标,毋庸置疑。

另外,在百模、千模大战的背景下,大模型公司们究竟还应不应该一股脑地卷底层大模型?从智谱本身出发,张鹏总也发表了一些对于大模型同质化的观点。

张鹏认为现在谈视频生成的商业化还为时过早。_图7

对于 “ 百模大战 ”,在商业化方面,还是要打造分层生态圈,联手踏实落地,避免 “ 重复造轮子 ” 的内耗。

如今,中国大型模型赛道正在从拥挤走向分层。大部分技术进步大抵如此:新技术产生,大家一拥而上;当技术发展到一定程度,自然而然地会分层——有些人解决底层的问题,有些人解决中间的问题,有些人解决上层的问题,相对稳固而不是混乱的生态,大家互相促进。

我们希望做的,就是利用普适智能水平较高的模型来为大家提供支持,智谱AI负责模型推理训练、算力、适配等复杂任务,行业和企业端则可以轻松地部署应用,期待大模型的成果能够在各个行业中得到更广泛的应用。

张鹏认为现在谈视频生成的商业化还为时过早。_图8

还有,就是所有大模型企业都无法绕过的一个问题,商业化

短短两年的时间,大模型已经进入了价格竞争的阶段,但大模型在实际应用中是面向消费者(To C)还是面向企业(To B),以及现在是否是大模型实际应用的最佳时机,这些问题都等待着大模型公司们来解答。

张鹏认为现在谈视频生成的商业化还为时过早。_图9

2024年,大型模型的应用正处于落地阶段。一方面,垂直领域中大型模型的商业化应用正在加速;另一方面,多模态大型模型不断涌现,其应用场景也将更加多样化。

智谱希望做的,就是能用通用智能水平比较高的基座模型去赋能大家,让大家去做行业应用。我们做好 L0 的层面,赋能伙伴和客户做好 L1 和 L2。

真正能够提供商业化服务的公司还是比较少的。从一个模型概念到一个能运作的模型,再到一个能商业化的方案,中间每一步都是巨大的跨越。

张鹏认为现在谈视频生成的商业化还为时过早。_图10

人工智能技术的下一次飞跃,有可能会在十年后出现,但也有可能就在明天实现。

0
分享到:
没有账号? 忘记密码?