2月16日,北京大学人工智能专业博士@北大AI鱼博士 发推文,从技术角度解读了OpenAI最新发布的Sora:
OpenAI最新发布的Sora视频生成模型技术报告揭示了其背后的强大训练思路和详细的技术特性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。其训练过程获得了大语言模型的灵感,采用扩散型变换器模型,通过将视频转换为时空区块的方式,实现了在压缩的潜在空间上的训练和视频生成。这种独特的训练方法使得Sora能够创造出质量显著提升的视频内容,无需对素材进行裁切,直接为不同设备以其原生纵横比创造内容。Sora的推出,无疑为视频生成领域带来了革命性的进步,其技术细节值得每一位从业者细致研究。
Sora发布了一份详细的技术报告,对于相关从业者来说是必看的。报告中包含了OpenAI的训练方法以及Sora的详细技术特点。以下是主要内容的概述,更多详细信息请查看完整报告。
总的来说,Sora的训练量非常大,这使得他具备了类似于涌现的能力。
技术特点:
1、Sora具备三维空间的连贯性:Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中呈现出连贯的运动。
2、模拟数字世界:Sora还可以模拟人工过程,例如视频游戏。Sora能够同时控制Minecraft中的玩家,并以高保真度渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力
3、持续性和持久性:对于视频生成系统而言,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能够在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观保持一致。
4、与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。
【训练过程】:
1、Sora 的训练受到了大型语言模型(Large Language Model)的启发。这些模型通过在大规模互联网数据上进行训练,从而获得了广泛的能力。
3、Sora实际上是一种扩散型变换器模型(Diffusion Transformer)。
首先将视频压缩到一个低维潜在空间中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。
4、开发了一个用于降低视觉数据维度的网络。该网络接受原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。同时,还设计了一个对应的解码器模型,它能够将生成的潜在表示映射回像素空间。
5、针对给定的压缩输入视频,我们可以提取一系列时空区块,这些区块在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上就是单帧的视频。通过基于区块的表示方法,Sora能够对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,我们可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。
6、随着Sora训练计算量的增加,样本质量得到了显著提升。Sora在训练过程中没有对素材进行裁剪,这使得Sora能够直接为不同设备以其原生纵横比例创造内容。
7、针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。
8、与DALL·E 3类似,同样使用了GPT技术,将用户提供的简短提示转化为更详细的提示,并将其发送给视频模型。
请前往OpenAI官网查看完整报告。
请注意以下内容:
1、Sora展示的三维空间的连贯性和物体的持久性,增强了视频内容的真实感。
2、通过模拟数字世界和与现实世界互动,Sora能够创造出富有创意的视频内容。
3、Sora的独特训练方式以及对各种纵横比的原生支持,标志着视频生成技术迈入了一个新的时代。