无需人类或GPT-4打标签！南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本（人不需要那么多食物）

原标题：无需人类或GPT-4打标签！南大&旷视研究院无监督范式大幅降低视觉大模型

对齐成本

关键字：数据,模型,样本,范式,作者

文章来源：量子位

内容字数：0字

旷视研究院投稿量子位 | 公众号 QbitAI不用打标签，也能解决视觉大模型的偏好对齐问题了。

南大与旷视研究院的研究人员，推出了适用于VLM的无监督范式。

对比偏好对齐前后，可以发现模型的输出发生了显著的变化。

目前的视觉大模型已经比较成熟，但作者发现它们在用户体感方面仍然有所欠缺。

于是团队经过研究，通过构造偏好样本对的方式解决了视觉语言模型的偏好对齐问题，并提出了Self-Supervised Visual Preference Alignment（SeVa）范式。

该范式基于LLaVa-1.5-7B/13B完成，整个过程无需GPT-4或者是人类参与打标签，目前项目已经开源！

构建正负样本对比数据集目前视觉大模型基本上在流程上已经非常成熟——预训练+指导监督微调（SFT）+对齐（可选）。

去年下半年开始，工业界和学术界主要聚焦在多模态大模型的数据（数据构造，配比，打标签）和模型结构（Connector，打开模型权重等）的设计上，目标是提升VLM的理解能力（传统QA+多模态benchmark）。

但是，研究团队发现部分开源大模型，虽然在跑分时有不错的性能，但在用户体感方面会比较欠

原文链接：无需人类或GPT-4打标签！南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破