智谱版“Sora”推出,可制作6秒视频,张鹏讨论技术和商业细节(智谱APP读写权限)

智谱版“Sora”推出,可制作6秒视频,张鹏讨论技术和商业细节。_图1

7月26日,智谱AI对外发布了AI生成视频模型清影(Ying),并宣布清影已上线清言App,面向所有用户开放文本生成视频以及图片生成视频,30秒时间可生成6秒视频

清影(Ying)采取了免费排队、付费加速的收费模式,24小时为5元,一年为199元。同时,清影API也上线大模型开放平台bigmodel.cn,企业和开发者可以采用API调用方式。

智谱AICEO张鹏称,清影(Ying)是初步的阶段性成果。从产品角度来讲,会成为一个单独的产品去商业化落地。但无论是2C还是2B,纯粹走向大规模商业化还比较早期。

清影(Ying)也会涉及开源。“我们从来同时兼顾开源和商用。”

在文生视频会不会取代长视频拍摄手段这个问题上,张鹏称,他曾去北影与老师们聊这件事。“从技术发展角度,大家认为对影视行业的变化有积极的意义。但至少目前,能把它用在直接面向最终观众的生产过程当中,可能还不是太够,用来做一些辅助的工作是可以的。”

在融入清影(Ying)后,智谱AI是否能够开发出一款非常强大的应用?张鹏认为,目前对于超级应用的定义有所不同。“可能不再那么极致。它是逐步发展的,从时间的角度来看,过去半年,人们的使用习惯已经发生了很大改变,只是这种变化并没有让你一夜之间感觉到,这是人们感知上的误解。”

在清影发布后,张鹏与现场与会者进行了交流。为方便阅读,数智前线对部分对话内容进行了整理。

01

为什么清影(Ying)要对公众开放

问:OpenAI Sora还没有开放给公众使用,为了保障清影能向公众开放,智谱做了一些什么事,尤其算力方面?

张鹏:首先OpenAI Sora效果还是不错的,今天智谱清影(Ying)还是一个初步的阶段性成果,还达不到像Sora演示出来的那么好、那么长的视频,这个还需要更多的努力。

虽然我们承认与OpenAI 、与世界顶级水平之间的差距,但是这条路还得自己走,我们一直也在走自己的路,不断用自己的方式往前追赶,想到新的方法,比如如何降低视频生成的算力成本,提高响应速度,使得所有人都能够使用。其实这件事除了技术追求外,为了实现技术的普及和成本效益,我们团队也在努力。

Q:成本是多少?

张鹏:这个在大家开始使用之后,统计才有意义。

问题:从何时开始进行“清影(Ying)”项目?团队规模和产品研发投入是怎样的?

张鹏:关于视频模型的工作,我们可以追溯到2021年,当时就开始了布局,进行了验证,但是遇到了许多问题。

为什么会有一段时间转去做语言模型,是我们认为本身从事大型模型的最终目标是实现AGI,本质上仍然是如何对现实世界中的信号和数据进行提取、压缩和学习。

这个事情可能语言是密度最高的,相对来说比较容易,而且也是人机交互中非常重要的环节。能够让它理解人类的自然语言,这是非常重要的一个方面。如果它能够理解这一点,就能够解决许多问题,比如生成可控制的视频。最简单的控制方式是我说什么你就做什么,这在很大程度上取决于它是否能准确理解内容。

我先有这样一个抽象层面、宏观层面的能力,用来对世界进行建模和理解。

问题:一些专注于视频模型的企业可能比大型模型企业更早进入市场,例如像快手这样的视频公司,它们的发展路径有何不同?

张鹏:我个人理解,从传统视频厂商或者纯粹做视觉的转去做模型,他们可能是沿着视觉信号这个路线做这件事。但这两个事情有对错吗?不一定,前一段时间我们看论文,单模态的建模、语言模态的建模、跨模态的建模,最终本质上会走向物理世界统一的表示,大家追求的是同一个真理,只是走不同的路而已,可能是这样一个结局。

Q:现在视频生成模型都是DiT架构,智谱在这方面有没有创新?

张鹏:视频生成模型采用的是DiT+Transformer结构,类似于Sora的方案。尽管如此,由于技术细节不够透明,我们在很多方面仍需自行探索。在算法方面,不断进行改进,比如引入了3D VAE,以提高DiT和Transformer结合的效率。大型模型的开发不仅仅涉及纯算法本身,还需处理大量的系统工程及其他方面的工作,因此项目变得非常复杂,需要大量工作。

Q:智谱不像快手等视频公司,有视频数据的积累,智谱的训练数据来自哪里?

张鹏:做视频生成真的非常依赖于数据。文字数据我们可能积累了很多年,视频数据是这几年才有的事情,而且难度更高。

我们使用的视频训练数据主要来源于两个方面。一方面是公开的数据集,这些数据集在互联网上广泛存在,特别是在开源社区中,有许多人致力于这方面的工作,积累了大量资料。另一方面是合作伙伴,如B站、华策和央视,他们为我们提供了一些训练数据。

就数据的质量问题,所谓高质量视频,和我们一般观众所感受到的略微有一些差别,它包括很多维度,如视频的解析度、风格、分镜、组合、连续性等,这个要求非常高,并不是说在短视频网站随便抓一个视频就能训练。所以对于数据本身的清洗、筛选,也是一个非常重要的过程,其中涉及许多技术性的内容,因为不可能仅凭人力进行检查,情况太多,很多时候还是要依赖技术手段来改进。

除了提供高质量的视频外,还包括相应的字幕、文本和描述等内容,这些都对训练视频模型非常有帮助。

问题:在算力上,有人说文生视频的算力需求是十倍甚至百倍的增长,但也有人说算力在千卡规模,比一些大语言模型要小很多。你看到算力需求是怎样的?

张鹏:我不是太同意生成视频的算力,会小于文字生成算力这件事情。可能未来很多都会变成多模态信号融合,但以视觉信号为主,视频对人的大脑,目前还是冲击力最强的。前两天有人问我,你看不看好PPT生成这件事。我说跳开这件事来看,PPT为什么比传统胶片方式要更被人接受,是因为有更主观的视觉信号,把文字转换成结构化的信息。未来会不会所有内容都转成视觉形式,没有所谓的PPT,你可以想象这个问题,人交流的需求是什么,什么方式是最直接的?所以这个都有可能。

02

清影的付费方式是如何制定的

问题:清影(Ying)付费方式是免费让我排队,但如果要加速,24小时要收5元钱,一年收199元,这是怎么定出来的?

张鹏:你看的是C端,我们也有B端API按价格收取费用。现在还是比较初级的尝试,人人可用,付费加速。想看看看市场和用户的反馈,后面会及时调整。大家喜不喜欢我们也不知道,大家用脚投票吧。主要是因为这个事情虽然已做到这个程度,但成本还是比较高,我相信所有的友商把这个东西不开放出来,很大程度也是因为成本问题,顶不顶得住很多人来用,这也是一个选择。

问题:后续商业化的策略是什么,更倾向于面向消费者(2C)还是面向企业(2B)?

张鹏:清影(Ying)功能上线,主要是阶段性成果,让大家体验一下目前视频生成这样的事情。在每人可用的前提下能做到什么程度,而不是关在实验室里或者在很小的概率上生成出什么东西。

从目前的阶段来看,无论是面向消费者(2C)还是面向企业(2B),纯粹走向大规模商业化仍处于早期阶段。为了确保公平性,不仅仅是消费者和企业,还有创作者们也应该能分享这一技术能力,因此我们在开放平台上开放了API。尽管API使用是需要支付一定费用的,但这种收费方式更加平易近人。众所周知,生成视频的成本非常高,因此稍微回收一些成本也是有益的。

问:文生视频会不会出现取代长视频拍摄的手段?

张鹏:这个问题从Sora出现以后一直在讨论,国外已经引起了很大的影响,包括好莱坞罢工等,肯定大家已经意识到它对传统影视行业的影响。甚至有一次我去了北影,和老师们也在聊这件事,大家对这件事的看法,从宏观来讲是比较一致的。从技术发展角度,大家认为这是很好的事情,对影视行业的变化有积极的意义。但至少目前,能把它用在直接面向最终观众的生产过程当中,可能还不是太够,用来做一些辅助的工作是可以的,甚至是做一些小规模的创作,有些专业玩家玩出来的短片,这个可能还是OK的,但真正要达到改变电影的制作等,这些更高要求的事情,可能还得要有一段路去走。

问题:智谱的视频生成产品,是整个模型矩阵中的一部分,还是说未来希望它能够独立形成商业闭环?

张鹏:实际上视频生成并不是孤立来看,是放到整个技术和产品发展路线当中来看,我们认为它是人工智能通用智能(AGI)里必须要走的路径。从产品角度来讲,是否会演变成一个独立的产品以便商业化落地,我认为是肯定的,只要市场需求存在,作为一家公司,我们就应该积极推进商业化。

Q:目前有哪些商业需求?

张鹏:有些需求在,做广告短片、演示视频、创意概念表达、视觉概念的表达、辅助性的表现,需要时间效率非常快,对细节要求没有那么严苛的,这些产品是能够迅速降低成本和周期。具体客户方面,像线上电商营销、媒体需求、社交平台的短视频需求是比较旺盛的,但我相信肯定不仅限于这些客户。对于这类客户我们也有计划,也是大家用手投票,我们看哪些需求相对比较集中,会针对性地做一些优化。下一步往哪个方向发展,哪些事情会成为技术突破和落地应用的关键问题,实际上我们有很多项目,不可能全部做,会集中在真正解决问题的路径上做,希望它是这样一个闭环,从上到下,从下而上这样一个闭环。

问题:清影(Ying)会不会开源?

张鹏:我们从来同时兼顾开源和商用。我们每一项技术都会有核心的内容以开源方式,开放给开源社区和开发者。我们开源的项目前前后后加在一起有20多个,大量的开源项目也比较有影响力。商业应用是另外一回事,是满足商业客户的需求,要求成本可控、安全、服务质量和稳定性,这两者之间是有一些差异,所以我们坚持做两件事情,统和起来,最终目标还是让我们追寻AGI。

问题:对智谱清言或者清影(Ying)来说,如何能够开发出一款超级APP?

张鹏:清言APP我们定位成人工智能助,帮你做生产力提升,学习效率提高,工作更便捷。简单来说就是两个字——应用,我们致力于实现实际效用。实际上我们认为所谓的超级APP,可能并非一定如此超级,我们也是逐步推进,在潜移默化的过程中,让大家真正喜欢并养成使用这个工具的习惯。可能这种变化并非突飞猛进,而是在时间的推移下,过去半年,大家的使用习惯已经发生了很大变化,只是没有让你一下子感受到这种改变,这是人们感知上的误差。

问题:大型企业普遍投入大量资金,您是如何平衡技术研发投入与商业回报的?

张鹏:确实做大模型这件事太烧钱了,而且确实也面临市场上的需求,你要商业化落地,所以我们是分层次去做。最基础的技术突破创新,是我们消耗资源,其中算力消耗方面是最大的部分。商业化层面是在这个基础之上推进的。但商业化这个事情,源于你的技术创新和驱动,我们不太希望说研究是一张皮,商业化、产品、服务客户是另外一张皮,这样的割裂对企业来讲会面临一个问题,就是怎么样分配资源。我们希望是贯通的,商业化过程当中,服务客户过程当中,就是以我们的技术和产品核心能力驱动的,客户的需求和反馈是我们技术往前创新突破和迈进的驱动力,让两者比较好的闭环,我们努力做到这样的事情。

0
分享到:
没有账号? 忘记密码?