建设多模态知识库可以参考以下方面:
学习相关知识:例如了解 Vision Transformer 的入门知识及其相关应用,包括 ViT(2020.10)、ViT-22B(2023.02)、Swin Transformer(2021.08)、MAE(2021.11)、BEiT(2021.06)、BEiTv2(2022.08)、TimeSFormer(2021.02)、BEVFormer(2022.03)等。 明确多模态任务、训练评测数据集和评测方法,例如 Video Action Recognition 任务、Image Text Retrival 任务、Image Caption 任务、Visual QA 任务、Visual Reasoning 任务、Visual Entailment 任务等。 利用效率工具:有效组织各种文件,通过聊天界面访问存储的信息,与他人轻松共享知识,将有价值的内容从视频和音频中转录出来,创建多语言的知识库。此外,还可以参考一些相关的知识库文章,如“ChatBot 是怎么炼成的?”等,了解大模型下游应用的研发过程。