大模型审核解决方案（da模型）

以下是关于大模型审核解决方案的相关内容：

在确保大模型的道德和伦理性方面，可采取以下措施：

数据清洗：训练前对数据预处理，移除或修正不道德内容的数据。算法设计：减少偏见和不公平性，平衡数据集不同群体代表性。道德和伦理准则：制定明确准则指导开发和使用。透明度：告知用户模型的能力、局限性及可能的偏差和不确定性。用户反馈：允许用户反馈以纠正不道德行为。持续监控：确保输出符合道德和伦理标准。人工干预：涉及道德伦理问题时引入人工审核。教育和培训：对使用人员进行道德伦理方面的教育。

在基于大模型 + 知识库的 Code Review 实践中，CR Copilot 功能的核心在于大语言模型基座，选型时需满足理解代码、对中文支持好、较强的上下文学习能力等条件。例如，起初在众多大模型中选择了“[gemma-7b-it]”、“[Llama2-Chinese-13b-Chat]”、“[chatglm2-6b]”和“[Baichuan2-13B-Chat]”，通过赛马，主观上感觉 Gemma、Llama2 更适用于 CR 场景，而 ChatGLM2 在中文 AIGC 上有优势。

在应对提示词攻击的输出侧防护方面，可采用基于模型的内容识别方法。开发者会用专门的审核模型检查输出内容是否有敏感信息，将过滤规则写进模型的系统提示里。审核模型可以是开源或商业的大型语言模型，也可以是自行训练的专门检测模型。此外，还可用第三方模型做匹配性判断，确保原始任务和输出内容的一致性，以检测是否受到提示注入或其他类型攻击。

猜你喜欢