一、为什么需要对齐
大模型在训练数据中学到的分布,并不等同于人类期望的行为。模型可能输出有害内容、编造事实、泄露隐私信息,甚至被恶意利用。大模型安全对齐的核心目标是:让模型行为符合人类价值观和安全规范。
二、RLHF:从人类反馈中学习
RLHF(Reinforcement Learning from Human Feedback)是ChatGPT成功的关键技术。流程:收集人类偏好标注数据 → 训练奖励模型(RM)→ 用PPO算法基于RM奖励优化LLM策略。RLHF让模型从"预测下一个词"进化为"生成人类喜欢的回答"。
三、DPO:更简单的对齐方法
DPO(Direct Preference Optimization)是RLHF的简化版,直接基于偏好数据优化策略,无需训练独立的奖励模型,实现更简单、训练更稳定。2024-2025年,DPO及其变体(ORPO、KTO)已成为开源模型对齐的主流方法。
四、安全实践全貌
- 红队测试(Red Teaming):组织专业团队模拟攻击,发现模型的安全漏洞
- 越狱防御(Jailbreak Defense):检测和拒绝恶意Prompt注入攻击
- 偏见检测与缓解:评估模型在不同群体上的表现差异,通过数据平衡和对齐训练缓解偏见
- 隐私保护:通过差分隐私训练、机器反学习(Machine Unlearning)等技术,防止模型泄露训练数据中的敏感信息
相关阅读:Prompt工程完全指南 | 联邦学习入门
评论 (60)