DiT 架构相比 SDXL 架构具有以下优势:
Scaling 能力:相比于 U-net,Transformer 结构的 Scaling 能力更受认可,即模型参数量越大,性能越强。 额外信息处理:DiT 在 Vision Transformer 模块基础上做了略微修改,能够在图片生成过程中接受一些额外的信息,如时间步 t 和标签 y。 场景模拟真实性:Sora 背后的 DiT 架构在大数据量情况下具有强大的刻画能力,能展现出类似大语言模型涌现出逻辑推理等能力的现象。 文本编码器:在提升文生图模型的语义理解能力方面,新的文生图模型纷纷优化文本编码器的能力,而 Hunyuan-DiT 作为使用 DiT 架构的模型,在中文生图方面有一定进展,但开源界中文、细粒度文生图模型的文本编码器仍有较大优化空间。