Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型（什么是扩散工艺）

原标题：Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型关键字：视频,模型,时间,卷积,注意力

文章来源：机器之心

内容字数：16393字

选自Lil’Log

作者：Lilian Weng

机器之心编译

编辑：Panda过去几年来，扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务：视频生成。近日，OpenAI 安全系统（Safety Systems）负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。Lilian Weng

机器之心对这篇博客进行了不改变原意的编译、整理，以下是博客原文：

视频生成任务本身是图像合成的超集，因为图像就是单帧视频。视频合成的难度要大得多，原因是：

1. 视频合成还需要不同帧之间保持时间一致性，很自然，这需要将更多世界知识编码到模型之中。

2. 相比于文本或图像，收集大量高质量、高维度的视频数据要更为困难，更罔论配对的文本 – 视频数据了。

如果你想了解扩散模型在图像生成方面的应用，可参读本文作者 Lilian Weng 之前发布的博文《What are Diffusion Models?》链接：https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

从头建模视频生成

首先，

原文链接：Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

文章来源：机器之心

作者微信：almosthuman2014

作者简介：专业的人工智能媒体和产业服务平台