AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024(ai怎么刷字体格式)

AIGC动态欢迎阅读

原标题:AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型

| ICML 2024

关键字:视频,语音,模型,解读,音频

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:LRST 好困

【新智元导读】音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。想要看懂短视频,除了视觉内容外,语音和音频等听觉信息,如视频音乐、音效、语音内容等,也对短视频的理解起到关键作用。

音视频大语言模型(av-LLMs)在近几年取得了显著进展,但语音作为视频中人类语言的主要载体,仍未在这些模型中得到充分探索。语音不仅提供了丰富的语言和语义信息,还有助于理解视频中的情感和潜在意义。

与此同时,语音信号还包含丰富的副语言信息,如音调和音高,以及多样的说话者属性(如年龄、性别、口音和身份),这些都是视频理解中不可或缺的要素。

然而,增强通用视听大语言模型的语音能力极具挑战性,这需要时间上精细的建模,并在粗略(如视频主题)和精细(如唇部动作)时间尺度上与其他模态进行复杂的交互。

近期,发表在ICML 2024的论文《vid

原文链接:AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?