AIGC动态欢迎阅读
原标题:LLM对齐综述|迈向可扩展的大模型
自动对齐,中科院软件所&阿里千问发布
关键字:模型,人类,反馈,信号,指令文章来源:夕小瑶科技说
内容字数:0字内容摘要:
夕小瑶科技说 原创作者 | 中科院软件所&阿里千问近年来,大模型的高速发展极大地改变了人工智能的格局。对齐(Alignment) 是使大模型的行为符合人类意图和价值观,引导大模型按照人类的需求和期望进化的核心步骤,因此受到学术界和产业界的高度关注。
先前的对齐工作主要依赖于人工标注的、包含有人类偏好信息的对齐数据来对模型进行继续训练,从而实现模型的对齐。具体来说,有两种形式的最为常用的对齐数据:1)指令-回复对,这类数据通常包含有一个指令以及一个人类撰写的标准回复,通常被用来对大模型进行有监督微调,从而将其中包含有的人类偏好信息注入到模型当中;2)偏好数据,这类数据通常包含有一个指令,若干个潜在的回复以及人类对这些回复的偏好信息。偏好数据既可以被用在DPO、IPO、PRO等各类算法中来会直接对大模型进行优化,也可以被用来训练reward model,然后通过使用reward model对模型进行反馈的方式,间接地将偏好数据中的对齐信号注入到模型当中。然而,无论是指令回复对还是偏好数据,在它们构建过程当中都需要非常昂贵、精细同时对标注质量要求非常高的人类标注的参与,这使得这类方法的每一步原文链接:LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问发布
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介: