RLHF#
Qon-policy和off-policy有什么区别?#
翻译#
on-policy:在策略,同策略,在线策略
off-policy:离策略,异策略,离线策略
定义及区别#
on-policy:智能体和环境进行实时交互,实时获得反馈并更新策略。#
小明边下棋边学习下棋就是同策略学习。
所以原始策略梯度法就是同策略学习。
off-policy:智能体与环境无实时交互,通过事先收集的离线数据集学习。#
小明通过看别人下棋来学习下棋。就是异策略学习。
- PPO:使用旧的策略采样的数据来学习新的策略,但由于旧的策略和新的策略偏差不大,所以PPO算是同策略学习。
- DPO:使用了偏好数据集,是不是强化学习都有争议。
- GRPO:针对PPO的改进,所以是同策略学习。
Q主流的强化学习算法及其核心公式#
近端策略优化PPO#
目标函数:
直接偏好优化DPO#
目标函数:
- 为待优化的策略(模型),
- 为参考模型(通常为初始模型),
- 为超参数,控制与参考策略的偏离程度,
- 为 sigmoid 函数。
组相对策略优化GRPO#
目标函数:
Q有哪些PPO算法的调参经验?#
PPO关键参数设置#
裁剪范围 (ε)#
通常设为 0.1-0.3,如原始论文建议 ε=0.2,用于限制策略更新幅度,平衡稳定性与收敛速度。
折扣因子 (γ) 和 λ#
- γ(长期回报折扣):常取 0.99-0.995
- λ(GAE偏差-方差权衡):常取 0.95-0.98
两者共同影响信用分配和优势估计的平滑度。
其他重要参数#
- 学习率:需随训练衰减(如 3e-4 → 1e-5)
- 批量大小:足够大以保证优势估计稳定
- 训练轮数(epoch):每批数据训练 3-10 轮
奖励模型的训练(PPO主要难点)#
PPO依赖奖励模型,但奖励模型训练面临三大挑战:
目标定义困难#
奖励需同时兼顾多个维度(如推理准确性、安全性、有用性),目标难以量化统一。
数据收集成本高#
依赖大量人类标注的偏好数据,成本高昂且难以规模化。
模型设计权衡#
- 参数量太小:奖励准确性不足
- 参数量太大:推理计算开销过高
奖励模型损失函数为:
其中人类偏好回答A优于B。
算法演进方向#
正是由于上述原因,后续DPO、GRPO等算法才试图绕过显式奖励模型训练,直接通过偏好数据优化策略,简化训练流程并降低对奖励模型的依赖。
QDPO训练时,chosen和rejected的reward一起下降的可能原因?#
如果数据没有标注好,那么可能出现下面的数据标注,偏好为
A>B>C>A
{
"chosen":A,
"rejected":B,
}
{
"chosen":B,
"rejected":C,
}
{
"chosen":C,
"rejected":A,
}这样的数据偏好,直接把dpo整懵了。不知道该提高输出哪个回答的概率了。
Q如何看待各种PPO的平替算法dpo/kto/rrhf/slic/orpo/samug/remax等算法号称性能等能超过PPO?#
我们注意到RewardModel有个很有意思的点,当使用大模型来搭建rewardmodel时,我们获得的可能不仅仅是人类标注中蕴含的那部分知识,同时还激发了模型在预训练过程中学到的一部分能力来做判别,这是我认为PPO和DPO一个比较重要的区别,甚至我们还可以对rewardmodel做一些提示词工程。举一个具体例子,可能我们给的所有标注都是没有长度偏好的,但是rewardmodel在预训练过程中就理解到详细的回答可能是更专业,更受人喜欢的,这样的知识就会通过PPO传导给policy模型,而DPO没有这样的效果。
Q在PPO过程中,reward model的效果上会有什么问题?#
rewardmodel的数据本身是有限标注的,那么在PPO训练过程中,模型产生的新样本可能是分布外的(OOD问题,outofdistribution),那么rewardmodel的准确率可能会降低;更极端的情况下,policy模型可能找到一些hacking解,虽然可能毫无意义,但是获得了很高的reward;这里可能可以用多个奖励模型投票的方式来增强鲁棒性。
Q奖励模型应该如何选择?#
奖励模型的选择应该注意一下几点:
- 数据质量 > 模型大小
- “对齐目标”必须明确
- 考虑鲁棒性和对抗性测试
- 重视可解释性与校准度
- 与策略模型规模匹配
- 考虑效率与成本
总结:关键在于用高质量数据精确、鲁棒地定义你希望强化的行为,并警惕其被欺骗。它是整个对齐过程中最易出现偏差的环节。
QDPO训练可能会出现什么问题?#
梯度爆炸或消失:由于DPO更直接地优化策略目标函数,可能导致策略更新过快或过剧,从而导致梯度爆炸或消失的问题。
收敛性问题:DPO没有像PPO那样的机制来限制策略更新,因此可能在训练过程中出现不稳定或策略崩溃的情况。
探索和利用之间的平衡问题:由于DPO直接最小化目标函数,可能会倾向于过早地进行利用,导致探索不足,从而无法找到全局最优解。
Q对比一下PPO,DPO,GRPO#
QPPO的缺点是什么?#
在训练PPO的过程中,需要4个模型同时加载到GPU中,策略模型(要微调的大模型),冻结的参考模型,价值函数模型(value head,线性层),以及奖励模型。需要很大的算力。
QDPO的偏好数据集长什么样子#
{
"prompt":"....",
"chosen":"....",
"rejected":"....",
}三元组。
Q在什么情况下,DPO在数学上等价于PPO?#
DPO的一个关键特性是,当Bradley-Terry模型完美拟合我们的偏好数据,并且RLHF学习到最优奖励函数时,RLHF和DPO的全局优化器是相同的。
这是一个重要的等价结果;然而在实践中:
Bradley-Terry模型通常不能完美地拟合偏好数据。#
RLHF学习到的奖励函数不会是最优的奖励函数。#
在高度非凸的损失景观(例如LLM)上进行梯度下降找不到全局优化器。#
例如,偏好循环会导致Bradley-Terry模型无法完美拟合数据。Bradley-Terry模型假设偏好具有传递性。例如,如果和成立,则模型预期结果为。但如果结果为,则存在循环,传递性被破坏。
思维链#
Q什么是思维链?思维链有什么作用?#
思维链(Chain of Thought,CoT) 是让AI模仿人类分步推理的技术,核心是将复杂问题拆解为多个中间步骤展示出来。本质是一种提升AI推理可靠性与透明度的实用技术,推动输出从“答案”转向“过程”。
作用:
提高复杂任务准确率(尤其数学、逻辑推理等)。#
增强可解释性(暴露推理过程,便于理解与纠错)。#
拓展能力边界(支持多步骤规划、代码生成等深层任务)。#
Q如何微调出带有思维链的LLM推理模型?#
PPO:奖励模型奖励那些带思维链的输出。#
DPO:正例数据带有思维链,负例数据不带思维链。#
GRPO:使用基于规则的奖励函数微调LLM。#
在不微调的情况下,使用推理时间扩展,来让LLM产生带有思维链的输出。本质上是PromptEngineering。
Q带有思维链的推理模型优缺点?#
Q现阶段LLM的对齐阶段分为sft和rlhf阶段,我们可以跳过sft阶段直接进行rlhf么?#
当然可以。GRPO就可以做到这一点。让模型自动产生思维链。然后训练出了DeepSeek-R1-Zero。但有SFT数据集不用也太浪费了,所以一般都是在sft微调后的模型上做rlhf。