Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积(yanci发音)

AIGC动态欢迎阅读

原标题:Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积关键字:卷积,人工智能,步幅,注意力,标杆

文章来源:机器之心

内容字数:0字

内容摘要:

机器之心报道

编辑:泽南、杜伟用卷积能做出一样好的效果。在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗?

今年年初,OpenAI

视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争论就没有断过。

近日,一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。这件事的起因是 Comma.ai 的 CTO Harald Schäfer 在展示自家最新研究。他(像最近很多 AI 学者一样)cue 了 Yann LeCun 表示,虽然图灵奖大佬认为纯 ViT 并不实用,但我们最近把自己的压缩器改成了纯 ViT,没有卷积,需要更长时间的训练,但是效果非常不错。比如左图,被压缩到了只有 224 字节,右边是原始图像。

只有 14×128,这对自动驾驶用的世界模型来说作用很大,意味着可以输入大量数据用于训练。在虚拟环境中训练相比真实环境成本更低,在这里 Agent 需要根据策略进行训练才能正常工作。虽然训练更

原文链接:Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?