模型蒸馏-(模型蒸馏)

模型蒸馏是将强化学习算法等提取到神经网络中的一种技术。

DeepMind 提出的算法蒸馏(Algorithm Distillation, AD),通过建立因果序列模型将强化学习算法提取到神经网络中。其原理是如果 Transformer 的上下文足够长到包含由于学习更新而产生的策略改进,它应能表示一个策略提升算子,这为将任何 RL 算法通过模仿学习蒸馏成强大的序列模型,并转化为 in-context RL 算法提供了技术可行性。

在视频生成方面,如 Imagen Video 应用了渐进式蒸馏来加速采样,能够将多个视频扩散模型蒸馏为每个模型仅 8 个采样步骤,且不影响感知质量。

此外,在 RLHF 研究中,还存在无意导致的信息蒸馏(unintentional distillation)现象,比如公司雇人做数据标注,此人将任务交给常用的 chatbot 模型,再粘贴结果回来,可能导致各个模型风格趋向一致。

0
分享到:
没有账号? 忘记密码?