性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了 | 中山大学&360 AI Research(华为没性价比)

AIGC动态欢迎阅读

原标题:性能不输SOTA,计算量仅DiT一半!T2X任务

新范式来了 | 中山大学&360 AI Research

关键字:复杂度,团队,任务,注意力,图像

文章来源:量子位

内容字数:0字

内容摘要:

Qihoo-T2X团队 投稿量子位 | 公众号 QbitAI性能不输SOTA模型,计算开销却更低了——

中山大学和360 AI Research联合推出PT-DiT,同参数规模下,计算量仅为DiT的51.4%,Lumina-Next的17.5%。

具体来说,PT-DiT基于Proxy token机制,能用于文生图(Qihoo-T2I)、文生视频(Qihoo-T2V)和文生多视图(Qihoo-T2MV)等多种任务。

(Qihoo-T2X指文本到任意视觉任务)

话不多说,我们直接看几个最终生成效果,文生图be like:

接下来是今年火热的视频生成,prompt如下:

Sunset cityscape with spires, buildings, clouds, warm glow, and trees.(夕阳下的城市景观,有尖塔、建筑物、云朵、温暖的光芒和树木。)

最后是多视图生成,宝剑、小黄鸭等任意素材均可实现转3D效果。

目前该研究已经开放了论文、项目主页和代码仓库,即将开源。

研究动机当前,基于Diffusion Transformer的模型(Sora , Vidu, Flux等

原文链接:性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了 | 中山大学&360 AI Research

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?