超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话（阿里巴巴在线定制模型）

原标题：超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频

对话

关键字：模型,视频,图像,能力,任务

文章来源：量子位

内容字数：0字

克雷西发自凹非寺量子位 | 公众号 QbitAI新的最强开源多模态大模型来了！

阿里Qwen2大模型家族新添多模态模型Qwen2-VL，在图像和长视频理解任务上双双取得了SOTA。

在具体的子类任务中，Qwen2-VL在大部分的指标上都达到了最优，甚至超过 GPT-4o等闭源模型。

在多模态能力的加持下，Qwen2-VL可以实时读取摄像头或电脑屏幕，进行文字形式的视频对话。

甚至还能作为Agent与环境进行交互，根据任务目标自主操控手机等设备。

此次发布的Qwen2共有2B、7B、72B三个版本，其中2B和7B版本已可下载并免费商用（Apache 2.0），72B则通过API提供。

目前开源代码已集成到Hugging Face Transformers、vLLM等第三方框架中。

还有不少网友都在狂cue一些知名大模型推理平台，如Groq、Ollama，希望能够早日提供支持。

下面就来一睹Qwen2-VL的表现！

会操作机械臂的多模态大模型利用强大的多模态能力，Qwen2-VL能够操纵机械臂，进行物体的拿取、放置等操作。

还可以化身扑克牌玩家，根据识别到的场上信息和提示词描述进行“2

原文链接：超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

文章来源：量子位

作者微信：

作者简介：