关于视频模型（视频生成模型）

关于视频模型的相关内容如下：

Sora 是 OpenAI 发布的首款文生视频模型，它不仅能够根据文字指令创造出既逼真又充满想象力的场景，而且生成长达 1 分钟的超长视频，还是一镜到底那种。当在大规模训练时，视频模型展现出许多有趣的新兴能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些属性没有任何明确的三维、物体等归纳偏置，它们完全是规模现象。 Sora 可以生成具有动态摄像机移动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中一致地移动。 Sora 能够有效地模拟短-和长程依赖。例如，模型可以在视频中保持人物、动物和对象的持久性，即使它们被遮挡或离开画面。同样，它可以在单个样本中生成同一个角色的多个镜头，并在整个视频中保持其外观。 Sora 基于 ControlNet 调整得到，其中新增了三个机制：跨帧注意力、交替式帧平滑器和分层式采样器。

猜你喜欢