标签：后端开发

共 2 篇文章

强化学习入门到进阶：Q-Learning、DQN到PPO算法全解析

系统梳理强化学习从经典到前沿的算法演进路线。从贝尔曼方程和Q-Learning出发，深入DQN的经验回放与目标网络，再到策略梯度、Actor-Critic和PPO算法。结合OpenAI Gym实战案例，帮助读者建立从理论到实践的完整知识体系。

Python 机器学习深度学习强化学习

2026-06-24 112 阅读

大模型安全与对齐全指南：RLHF、DPO到红队测试

系统梳理大模型安全对齐的核心技术体系。从RLHF（人类反馈强化学习）到DPO（直接偏好优化），详解偏好对齐的数学原理与实现细节。覆盖红队测试方法论、越狱攻击防御、偏见检测等安全实践，构建负责任AI的完整技术防线。

强化学习 GPT Claude

2026-06-24 741 阅读