有哪些视频、音频、图片理解的大模型？开源的有没有（图像音频视频处理软件有哪些好用）

以下是一些视频、音频、图片理解的大模型：

视频生成音效模型已开源。 Sheet Music Transformer：超越单音转录的端到端光学音乐识别。 AnyGPT：具有离散序列建模的统一多模态大型语言模型。腾讯与新加坡国立大学发布 M2UGen。

此外，在多模态成为大模型标配的趋势下，以下大模型在视频和图片理解方面表现出色：

OpenAI 的产品在从语言处理到图片、视频、声音的理解方面有不断发展，如 Sora 工具，其背后体现了 OpenAI 对视频的阅读、解读和分析能力的提升。 Meta 发布的 V-JEPA 是基于世界模型打造的多模态模型。 Google 的 Gemini 号称具有强大的对视频和图片的深入解读能力。 Stable Diffusion 发布的最新版本也具有强大的对视频和图片的理解能力。

猜你喜欢