Sora 团队负责人 Aditya Ramesh 对话谢赛宁丨压缩一切！视觉与语言模态的融合（谢骞是谁）

原标题：Sora 团队负责人 Aditya Ramesh 对话谢赛宁丨压缩一切！视觉与语言

模态的融合

关键字：模型,图像,文本,语言,政策

文章来源：大数据文摘

内容字数：0字

大数据文摘受权转载自智源社区

2024 年 6 月 14 日，一年一度的智源大会又迎来重磅嘉宾。

当红视频生成大模型「Sora」团队的负责人Aditya Ramesh在2024智源大会开幕式上发表了题为「Language as the Scaffolding for Visual Intelligence」的主旨演讲。他介绍了生成式建模领域近年来的发展历程以及未来的前进方向，分享了OpenAI

从研发 DALL·E、iGPT、CLIP 到 Sora 的一次次研究指导思想的转变，讲述其团队为何一步步将生成式模型做向极致。站在人工智能 3.0 的拐点，Aditya Ramesh 的宝贵经验具有巨大的启发意义。

下面是智源社区对 Aditya Ramesh 演讲主要内容的编译：

大模型初探：DALL·E——扩展模型规模的启示

2021 年 2 月，我们发布了著名的「文生图」人工智能系统 DALL·E，它是一个同时使用文本和量化压缩后的图像以自回归方式训练的 Transformer 模型。该系统可以将文字描述映射为量化的创作各种风格的逼真图像。之所以决定开展该项目，是因为我们看到使用 Tra

原文链接：Sora 团队负责人 Aditya Ramesh 对话谢赛宁丨压缩一切！视觉与语言模态的融合

文章来源：大数据文摘

作者微信：BigDataDigest

作者简介：普及数据思维，传播数据文化