Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,其发展历程如下:
核心技术来源于 Runway 的 Patrick Esser 和慕尼黑大学机器视觉学习组的 Robin Romabach。 技术基础主要来自于他们在 CVPR22 上合作发表的潜扩散模型研究。 其原理包括使用文本编码器将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,并在扩散过程中根据文本指导噪声图像向目标图像收敛。相关论文包括:
High-Resolution Image Synthesis with Latent Diffusion Models Stable Video Diffusion:Scaling Latent Video Diffusion Models to Large Datasets此外,Stable Diffusion 的相关资源如下:
SD 1.4 官方项目:CompVis/stable-diffusion SD 1.5 官方项目:runwayml/stable-diffusion SD 2.x 官方项目:Stability-AI/stablediffusion diffusers 库中的 SD 代码 pipelines:diffusers/pipelines/stable_diffusion