标签:后端开发

共 2 篇文章

大模型安全与对齐全指南:RLHF、DPO到红队测试

系统梳理大模型安全对齐的核心技术体系。从RLHF(人类反馈强化学习)到DPO(直接偏好优化),详解偏好对齐的数学原理与实现细节。覆盖红队测试方法论、越狱攻击防御、偏见检测等安全实践,构建负责任AI的完整技术防线。

2026-06-24 742 阅读