Sora被超越,免费视频模型更真实,服务器瞬间爆满。(sor下载)

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图1

智东西6月13日消息,今天,美国3D计算机视觉创企Luma AI发布了一个名为Dream Machine的人工智能模型。这一模型具备强大的文本生成视频和图像生成视频功能,生成的画面非常逼真,人物表情丰富,仅需2分钟即可完成5秒视频生成。

Dream Machine最让人眼前一亮的特点是,它所生成的视频中包含非常逼真的摄像机运动轨迹、自然的光影变化以及出色的一致性。

下方视频是Luma AI放出的官方demo之一,内容是第一视角的废墟探险画面。随着探险者进入室内,画面的曝光程度出现了变化,探险者的手电光线也有自然的晃动,十分符合真实情况。摄像机的视角就好像废墟探险者常常佩戴使用的运动相机拍摄的一样,让人有身临其境的体验。

此外,与Sora等其它大多数视频生成模型不同,Dream Machine目前可在Luma AI官网直接免费使用,免费用户每月可享受30次的视频生成额度,这已经足够满足大部分人的非商用需求了。

然而,在刚刚发布时,有许多用户涌入Luma官网,争相体验Dream Machine的视频生成效果。这一情况导致Luma官网服务器一度崩溃,几乎无法正常生成视频,直到目前才有所缓解。

参与Dream Machine早期beta测试的人员称赞该系统能够忠实地渲染指定的对象、角色、动作和环境,同时保持流畅的运动和连贯的叙事。

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图2

▲官网公告:生成需要120秒。然而由于需求激增,您的请求可能需要排队。

Luma AI成立于2021年,总部位于旧金山。Luma AI是一家专注于计算机视觉技术的初创公司,主要致力于3D内容生成领域。该公司已经完成了两轮融资,并且得到了英伟达和硅谷顶级风投公司Andreessen Horowitz(简称a16z)的投资,目前的估值约为2-3亿美元。在Luma AI之前推出的明星产品之一是名为Genie 1.0的文本转3D模型工具,它能够根据文本内容在短短10秒内生成多种格式的3D建模。

▲Genie 1.0宣传片

一、Dream Machine生成效果实测,速度极快但质量不稳定

Dream Machine一经发布就迅速引起了广泛关注,吸引了大量人慕名而来,排队等候生成视频的时间约为15分钟。然而,随着热度逐渐降低,智东西终于有机会对Dream Machine进行大规模测试,以获取第一手的体验报告。

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图3

Dream Machine的使用体验非常方便,在简单的注册流程后,用户可以直接进入视频生成界面。Dream Machine支持两种类型的提示词:图片+文字和纯文字提示词。如果勾选输入框右下角的“Enhance prompt”选项,还可以自动优化用户输入的提示词,以实现更好的生成效果。

官网的输入框下方提供了许多示例提示词,于是智东西首先使用了这些提示词进行测试,我们使用的其中一条提示词是“Low-angle shot of a majestic tiger prowling through a snowy landscape, leaving paw prints on the white blanket (低角度拍摄一只威严的老虎在雪地中潜行,留下爪印在白色的雪毯上)”。

Dream Machine的视频生成速度确实没有夸大,除去排队的时间,这段5秒钟的视频在不到2分钟的时间里就完成了,但效果却不尽如人意。

在Dream Machine生成的视频中,提示词里关于拍摄角度的指令完全被忽略了,视频采用的是鸟瞰而非低角度拍摄。同时,老虎在雪地上的脚印也几乎不可见。此外,老虎的跑动方式和尾巴的甩动都不太符合物理规律。老虎身上的花纹随着镜头拉远不断变化,一致性也比较一般。Dream Machine这是要翻车的节奏?

为了进一步验证Dream Machine的实际生成效果,智东西使用Luma AI官方账号转发了一位专业创作者的提示词,以进行二次测试。这个提示词是以图片+文字的形式呈现,文字内容是“女孩带着惊奇的目光凝视”,而输入的图片是荷兰画家约翰内斯·维米尔的名画《戴珍珠耳环的少女》。我们还特意生成了两个版本,一个勾选了“Enhance prompt”,另一个没有勾选。

▲未勾选增强提示功能

请勾选“增强提示”功能

本次生成的速度依旧非常快。生成结果显示,是否选择Enhance prompt功能对Dream Machine的生成效果产生了显著影响。在未选择这一功能的第一个生成结果中,人物几乎没有发生任何变化,视频只是将镜头拉近了一些。而在选择了这一功能的第二个生成结果中,画中的人物才真正开始动起来。随着视频中人物的移动,她的面部和头巾上的光线和阴影变化得更加自然。而服饰上的纹路在人物移动的过程中基本保持了不变。

然而这一生成结果也并非完美无缺。视频中人物的面部在前几帧之后就出现了变化,五官和妆容与原画中的人物有所不同。虽然模型知道人物应该佩戴一副对称的珍珠耳环,但由模型生成的那一侧耳环看上去并不像是真正的珍珠耳环,缺乏原画中珍珠的光泽和质感,形状和颜色也稍有差异。

Luma AI官方转发的视频

Luma AI官方转发的视频相比,尽管智东西使用了相同的提示词,但我们测试中生成的这一条视频中人物的表情和神态并不像官方视频中那般丰富。不过总体来看,这两个视频生成的效果都是比较好的,基本还原了原画中人物的着装,光影和移动也比较自然流畅,仅仅在一致性上有一些小问题。

作为目前视频生成模型中的领军者,Sora在Dream Machine发布后迅速引起了各路网友的关注,他们纷纷将其与Dream Machine进行比较。智东西使用了一则OpenAI官方发布的Sora Demo中的提示词,对这两个模型的表现进行了相对严格的平行对比。

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图4

▲本次生成中使用的提示词

▲Dream Machine生成结果

Sora官方演示

对比之下,Dream Machine生成的效果和Sora还存在一定差距。画面中的主要人物表情神态都不太自然,“AI味儿”比较浓厚。人物的右手形态畸形,而左腿在行走的过程中还出现了类似“穿模”的问题。而模型生成画面背景中的人物时也出现了幻觉,背景中的一位骑着自行车的男士在移动过程中变为了几位并排行走的人。Dream Machine唯一比较可圈可点的地方是在人物走过路面积水时,生成了比较真实的倒影和涟漪,且生成的视频速度比较符合真实情况。

不过,拿OpenAI发布的官方demo和Dream Machine的用户实测效果比较确实不太公平。AI公司们一直有美化demo效果的“传统”,模型的实际生成效果和demo总是存在一定差距的。作为免费模型,Dream Machine用户实测时大量的生成需求可能会对原本就不富余的算力带来冲击,影响实际生成效果。此外,超长的提示词可能也会给模型带来一定压力。智东西用ChatGPT总结了这一demo的提示词,再给Dream Machine一次机会。

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图5

▲经过简化后的提示词

▲勾选”增强提示”的生成结果

▲未勾选”Enhance prompt”选项的生成结果为空

在简化提示词后,Dream Machine的生成效果确实得到了一定的改进。勾选“增强提示”的生成结果中,人物面部的光线随着路边霓虹灯的变化而变化,而她的神态也基本符合提示词中的描述,视频的镜头运动给人一种赛博朋克风格大片的感觉。不过,背景中的人物仍然存在一些形变,而霓虹灯牌上的文字在人物经过时也发生了一些变化。未勾选“增强提示”的生成结果在真实性方面竟然有一定程度的提高,但在镜头晃动时面部的一致性受到了轻微的影响。

综合以上测试结果,Dream Machine作为一款免费的视频生成工具还是非常出色的。它在生成速度上表现出色,支持多种输入方式,并且能够自动优化输入的提示词。在多次测试后我们发现,使用Dream Machine生成视频时,使用图像+文字的提示词往往比使用纯文字提示词的效果更好,在生成结果的真实性和对提示词的遵循程度上都会有明显的提升。

然而,在处理较长的提示词时,这台“造梦机”也会遇到困难的情况。我们在测试时发现,长提示词的等待时间要比普通长度的提示词显著长,最终生成的效果也会有所降低。如果Dream Machine没有受到公测期间可能出现的算力不足问题的影响,或许它真的能够实现与Luma AI官方demo中类似的效果。

二、各路网友纷纷展现出色才华,对Dream Machine给予了极高的评价

许多网友和专业创作者都开始尝试使用Dream Machine,并将其与其他视频生成模型进行了比较。

下方这位网友将Luma AI的Dream Machine与RunwayPika这两个视频生成模型进行对比。这位网友认为,Luma AI的Dream Machine在大多数镜头中表现更出色。

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图6

下图中的网友则认为Dream Machine在运动和一致性上表现非常出色,并且让普通消费者也能够体验到与Sora相当的高品质。这位网友将多个Dream Machine生成的视频进行了拼接,并加上了音乐,最终制作出了一条时长超过3分钟的AI生成MV。

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图7

在经过专业创作者的精心培养和指导后,Dream Machine的表现确实达到了更高水平。这段视频中的画面呈现出了梦幻而又怪诞的氛围,与音乐的风格完美地融合在一起。

许多网友发挥想象力,发现了Luma AI官方从未想到的用途。有一位网友将表情包输入Dream Machine,然后生成了一个视频。这个创意也得到了Luma AI官方的转发,称Dream Machine变成了真正的Meme Machine(表情包制造机)。

还有一位网友将自己一家人三十年前在冲绳旅行时的照片发送给Dream Machine,而生成的视频让这张三十年前的照片也有了如今动态照片般的效果。

Dream Machine还能生成多种风格的视频。有一位网友将自己孩子最喜欢的毛绒玩具变成了生动有趣的动画,还有一位专业创作者利用Dream Machine创作了一条引人入胜的一分钟动画短片。

在上方的视频中,Dream Machine的一致性再次得到了验证,视频里的卡通人物主角在不同的场景下外貌都基本一致。此外,视频中人物表情生动,富有感染力,画面中的其它元素相对稳定,各种动作和人物与场景的互动也基本符合物理规律。

然而,美国媒体VentureBeat也指出,作为免费的视频生成工具,Dream Machine将不可避免地面临滥用的风险。Luma AI在其网站上向所有人免费提供Dream Machine的使用权,并计划发布API接口和主流创作软件的插件。这种开放的方式确实可以让Luma AI抢占先机,建立充满活力的创造者和开发者社区,但相关的治理框架或许无法赶上科技发展的速度。在创新和责任之间找到适当的平衡将成为整个行业和社会面临的重要挑战。

三、Luma AI曾获得知名风险投资公司a16z和英伟达的投资,其创始人和高管团队中也有华人成员

Luma AI在发布Dream Machine之前并不是一家广为人知的人工智能企业。它成立于2021年,总部位于加利福尼亚州旧金山。Luma先前专注于开发人工智能技术,用于以3D格式捕捉和体验现实世界。

在Dream Machine之前,Luma的主打产品是Luma AI移动应用程序,它允许用户使用手机相机捕捉物体和场景的空间3D模型。该应用程序利用神经渲染技术,例如神经辐射场(NeRF),生成具有照片级质量和高细节的3D模型。

3D捕捉技术可以用于将现实世界中的物体或场景转化为3D视频,可以将其导出为3D对象,也可以嵌入到网站和应用程序中。Luma AI是一项专门为需要高级3D和视觉技术的行业提供的服务,例如电子商务、虚拟现实和游戏。

Luma AI是一个小而精致的团队,根据官网上的信息显示,目前在Luma AI任职的员工数量不到40人。根据媒体Z Potentials的独家专访内容,Luma AI的创始人兼首席执行官Amit Jain具有丰富的经验。他曾在苹果公司参与Vision Pro的开发工作,积累了在3D计算机视觉、相机硬件、机器学习、系统工程和深度技术产品方面的丰富经验。

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图8

就像许多其他人工智能公司一样,Luma AI的团队中也有很多华人。Luma的另一位创始人兼CTO余思贤在加州大学伯克利分校就读,跟随来自日本的教授Angjoo Kanazawa进行了早期的NeRF神经渲染研究,并在Google和Adobe实习过。2021年毕业后,他遇到了Luma AI的另一位创始人Amit Jain,并决定一起创业,因此拒绝了斯坦福大学、麻省理工学院等大学的博士Offer。

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图9

Luma AI的首席科学家宋佳铭毕业于中国著名的清华大学,他在大二时就开始专注于机器学习的研究。随后,他前往美国斯坦福大学深造,并成功毕业。尽管清华大学姚班给予了他教职的邀请,但他选择了加入英伟达公司,拒绝了这个机会。他的研究成果之一是DDIM(denoising diffusion implicit models)算法,该算法极大地提高了扩散模型的生成速度。这一算法已经成功应用于Stable DiffusionDALL·E 2等项目中。

Sora被超越,免费视频模型更真实,服务器瞬间爆满。_图10

截至目前,Luma AI已经成功筹集了总计6730万美元的风险投资,其中包括他们在2024年初进行的4300万美元B轮融资。主要投资者包括英伟达、Andreessen Horowitz(简称a16z)和Amplify Partners。根据最新的估值,Luma AI在B轮融资后的估值约为2-3亿美元。

结语:视频生成模型赛道再现黑马,2024会是文生视频爆发的一年吗?

结语:视频生成模型赛道再现黑马,2024年是否将成为文生视频爆发的一年呢?

近一年来,人工智能视频生成领域的热度持续攀升,许多人工智能公司推出了全新的视频生成模型,引发了行业内的激烈竞争。

较早进入文生视频领域的Runway目前已经推出了两代视频生成模型,还雄心勃勃地勾勒出了“通用世界模型(General World Model)”的宏大愿景。而华人团队背景的Pika已经进行了三轮融资,筹款5500万美元。OpenAI更是用Sora这一划时代的产品,彻底引爆了这条赛道。

Luma AI从3D建模转到视频生成赛道背后,除了文生视频领域本身的热度外,也和他们之前的背景有关。要生成逼真自然的视频画面,对3D物体和空间的理解是必不可少的,而Luma在这方面已经有一定的经验和专业知识,并获得了投资人的认可。或许Luma AI的Dream Machine能给这一赛道带来新的惊喜。

0
分享到:
没有账号? 忘记密码?