以下是关于 AI 视频技术发展趋势的相关内容:
2023 年被视为人工智能视频领域的突破之年。年初时,面向公众的文本生成视频模型尚未出现,但在这一年中,数十种视频生成工具纷纷问世,全球已有数百万用户能够通过文字或图像提示制作短视频。然而,当前这些工具存在局限性,如大部分只能生成 3 到 4 秒的视频,视频质量参差不齐,像保持角色风格一致等难题仍待解决。要仅依靠文本提示制作出类似皮克斯电影的短片,还有很长的路要走。
过去一年在视频生成技术上的进展预示着正处于巨大变革的初期阶段,与图像生成技术的发展相似。文本生成视频的模型在持续进步,图像转视频、视频转视频等衍生技术也开始流行。
未解决的问题方面,不同的模型擅长不同的风格、运动类型和场景布局,相关产品也致力于解决诸如动画化人物头像、视觉特效和视频到视频的转换等问题。在视频制作工作流程中,谁将主导仍不明确,创作者通常需要在多个平台进行操作。
未来发展趋势包括:基于 Diffusion Model 和基于自回归模型的两大主流技术路线将继续同时发展;视频解编码未来可能被基于 token 的处理方法替代,但需要长期的模型改进;基于 token 的神经网络解码速度和 CPU 优化是当前技术发展的瓶颈;未来视频生成和显示可能融合,实现即时编辑和更高效的内容生成;基础模型的提升将促进下游研究和应用效果的提高;开源社区的创造力对技术创新和应用发展起到关键作用;不同基础模型对特定问题的适用性和表现各不相同;随着模型规模和训练数据量的增加,性能会得到提升,且数据规模和模型规模应相匹配,以达到最佳性能提升。AIGCBench 评估了控制-视频对齐、运动效果、时间一致性和视频质量这四个关键维度。