安全大模型是一个重要的研究领域。以下是关于安全大模型的一些关键信息:
数据过滤:在预训练阶段对模型的预训练数据进行过滤,不让模型学习有害知识。例如,baichuan2 在其开源技术报告中提到使用此技术进行数据过滤以减少有害输出,但因数据关联性,仅数据过滤可能不够。 模型对齐:ChatGPT 的早期版本 GPT3.5 由 GPT-3 经过对齐得来,通过与人类价值观对齐,语言模型的任务目标和输出形式发生变化,遵循 helpful、honest、harmless 原则确保输出的无害性和真实性。 模型架构:大型语言模型通常采用 Transformer 衍生的 Decoder-only 架构,如 ChatGPT。 规模特点:大模型的预训练数据量大,来自互联网的多种来源,且参数众多。 攻击与防御:存在白盒攻击等攻击方式,同时也有相应的防御手段。 未来展望:OPENAI 首席科学家 ilya 因担心模型安全失控而解雇 sam altman。hinton 等著名研究者认为大模型及其驱动的 AI 必须引入安全性监管,防止失控或对人类造成伤害,并签署联名公开信呼吁监管。