南京大学发布百万规模文本生成视频数据集OpenVid-1M（南京大学原创歌曲）

AIGC动态欢迎阅读

原标题：南京大学发布百万规模文本生成视频数据

集OpenVid-1M

关键字：视频,文本,标记,视觉

,数据

文章来源：夕小瑶科技说

内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | Zicy“巧妇难为无米之炊”，文生视频作为一个在AI中较为年轻的研究方向，由许多至关重要的问题还尚未解决，其中之一就是缺乏大规模高质量数据集，因此，最近南京大学提出了一个名为OpenVid-1M的大规模高质量数据集，它包含了100万个带有字幕的高质量视频片段。

除了数据集，他们还提出了一种新颖的多模态视频扩散Transformer（MVDiT），能够同时提取视觉标记和文本标记中的结构信息和语义信息。与以往主要关注视觉内容的DiT架构不同，MVDiT通过并行的视觉-文本架构增强文本和生成视频之间的一致性。其核心机制包括多模态自注意力模块、多模态时间注意力模块和多头交叉注意力模块，分别用于增强标记间的交互、确保时间一致性和融合文本语义信息。

论文标题：

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

论文链接：

https://arxiv.org/pdf/2407.02371

OpenVid-1M数据集OpenVid-1M是一个精确的高质量数据集，包含超过10

原文链接：南京大学发布百万规模文本生成视频数据集OpenVid-1M