ConsiStory是什么
ConsiStory是由NVIDIA和特拉维夫大学的研究人员共同开发的一种无需训练的文本生成图像的方法,可以实现让图像在保持风格和主题不变的情况下,遵循不同的文本提示快速且自然地扩展到不同的场景下。ConsiStory的核心思想是在图像生成过程中,通过共享预训练文生图模型的内部激活来实现主题的一致性。这种方法不需要对模型进行任何形式的优化或预训练,从而大大简化了生成一致性图像的过程。

ConsiStory的官网入口
官方项目主页:https://consistory-paper.github.io/ Arxiv研究论文:https://arxiv.org/abs/2402.03286 GitHub源代码库:即将推出ConsiStory的主要特点
无需训练:ConsiStory不需要对预训练的文本到图像(T2I)模型进行任何形式的优化或个性化训练,即用户可以直接使用现有的模型来生成一致性的图像,大大节省了时间和资源。一致性主题生成:该方法能够生成一系列图像,这些图像在不同文本提示下保持相同的主题身份,例如相同的人物、动物或物体。这对于需要一致视觉元素的应用(如故事书、角色设计、虚拟资产创建等)非常有用。跨帧一致性:ConsiStory通过内部激活共享和注意力机制,确保生成的图像在主题特征上保持一致,即使在不同的背景和情境下。 布局多样性:为了增加生成图像的多样性,ConsiStory采用了注意力丢弃和查询特征混合等技术,以避免图像布局的过度一致性。兼容性:该方法与现有的图像编辑工具(如ControlNet)兼容,可以结合使用以实现更复杂的图像控制。 快速生成:由于不需要训练步骤,ConsiStory能够快速生成图像,比现有的最先进技术(SoTA)快约20倍。ConsiStory的技术原理
