尚硅谷大模型技术之高频面试题
版本:V2.1.9
核心技术 / 强化学习

强化学习

16 个问题

RLHF#

Qon-policy和off-policy有什么区别?#

翻译#

on-policy:在策略,同策略,在线策略

off-policy:离策略,异策略,离线策略

定义及区别#
on-policy:智能体和环境进行实时交互,实时获得反馈并更新策略。#

小明边下棋边学习下棋就是同策略学习。

所以原始策略梯度法就是同策略学习。

off-policy:智能体与环境无实时交互,通过事先收集的离线数据集学习。#

小明通过看别人下棋来学习下棋。就是异策略学习。

  • PPO:使用旧的策略采样的数据来学习新的策略,但由于旧的策略和新的策略偏差不大,所以PPO算是同策略学习。
  • DPO:使用了偏好数据集,是不是强化学习都有争议。
  • GRPO:针对PPO的改进,所以是同策略学习。

Q主流的强化学习算法及其核心公式#

近端策略优化PPO#

目标函数:

直接偏好优化DPO#

目标函数:

  •  为待优化的策略(模型),
  •  为参考模型(通常为初始模型),
  •  为超参数,控制与参考策略的偏离程度,
  •  为 sigmoid 函数。
组相对策略优化GRPO#

目标函数:

Q有哪些PPO算法的调参经验?#

PPO关键参数设置#
裁剪范围 (ε)#

通常设为 0.1-0.3,如原始论文建议 ε=0.2,用于限制策略更新幅度,平衡稳定性与收敛速度。

折扣因子 (γ) 和 λ#
  • γ(长期回报折扣):常取 0.99-0.995
  • λ(GAE偏差-方差权衡):常取 0.95-0.98

两者共同影响信用分配和优势估计的平滑度。

其他重要参数#
  • 学习率:需随训练衰减(如 3e-4 → 1e-5)
  • 批量大小:足够大以保证优势估计稳定
  • 训练轮数(epoch):每批数据训练 3-10 轮
奖励模型的训练(PPO主要难点)#

PPO依赖奖励模型,但奖励模型训练面临三大挑战:

目标定义困难#

奖励需同时兼顾多个维度(如推理准确性、安全性、有用性),目标难以量化统一。

数据收集成本高#

依赖大量人类标注的偏好数据,成本高昂且难以规模化。

模型设计权衡#
  • 参数量太小:奖励准确性不足
  • 参数量太大:推理计算开销过高

奖励模型损失函数为:

其中人类偏好回答A优于B。

算法演进方向#

正是由于上述原因,后续DPO、GRPO等算法才试图绕过显式奖励模型训练,直接通过偏好数据优化策略,简化训练流程并降低对奖励模型的依赖。

QDPO训练时,chosen和rejected的reward一起下降的可能原因?#

如果数据没有标注好,那么可能出现下面的数据标注,偏好为

code
A>B>C>A
{
	"chosen":A,
	"rejected":B,
}
{
	"chosen":B,
	"rejected":C,
}
{
	"chosen":C,
	"rejected":A,
}

这样的数据偏好,直接把dpo整懵了。不知道该提高输出哪个回答的概率了。

Q如何看待各种PPO的平替算法dpo/kto/rrhf/slic/orpo/samug/remax等算法号称性能等能超过PPO?#

我们注意到RewardModel有个很有意思的点,当使用大模型来搭建rewardmodel时,我们获得的可能不仅仅是人类标注中蕴含的那部分知识,同时还激发了模型在预训练过程中学到的一部分能力来做判别,这是我认为PPO和DPO一个比较重要的区别,甚至我们还可以对rewardmodel做一些提示词工程。举一个具体例子,可能我们给的所有标注都是没有长度偏好的,但是rewardmodel在预训练过程中就理解到详细的回答可能是更专业,更受人喜欢的,这样的知识就会通过PPO传导给policy模型,而DPO没有这样的效果。

Q在PPO过程中,reward model的效果上会有什么问题?#

rewardmodel的数据本身是有限标注的,那么在PPO训练过程中,模型产生的新样本可能是分布外的(OOD问题,outofdistribution),那么rewardmodel的准确率可能会降低;更极端的情况下,policy模型可能找到一些hacking解,虽然可能毫无意义,但是获得了很高的reward;这里可能可以用多个奖励模型投票的方式来增强鲁棒性。

Q奖励模型应该如何选择?#

奖励模型的选择应该注意一下几点:

  • 数据质量 > 模型大小
  • “对齐目标”必须明确
  • 考虑鲁棒性和对抗性测试
  • 重视可解释性与校准度
  • 与策略模型规模匹配
  • 考虑效率与成本

总结:关键在于用高质量数据精确、鲁棒地定义你希望强化的行为,并警惕其被欺骗。它是整个对齐过程中最易出现偏差的环节。

QDPO训练可能会出现什么问题?#

梯度爆炸或消失:由于DPO更直接地优化策略目标函数,可能导致策略更新过快或过剧,从而导致梯度爆炸或消失的问题。

收敛性问题:DPO没有像PPO那样的机制来限制策略更新,因此可能在训练过程中出现不稳定或策略崩溃的情况。

探索和利用之间的平衡问题:由于DPO直接最小化目标函数,可能会倾向于过早地进行利用,导致探索不足,从而无法找到全局最优解。

Q对比一下PPO,DPO,GRPO#

QPPO的缺点是什么?#

在训练PPO的过程中,需要4个模型同时加载到GPU中,策略模型(要微调的大模型),冻结的参考模型,价值函数模型(value head,线性层),以及奖励模型。需要很大的算力。

QDPO的偏好数据集长什么样子#

code
{
	"prompt":"....",
	"chosen":"....",
	"rejected":"....",
}

三元组。

Q在什么情况下,DPO在数学上等价于PPO?#

DPO的一个关键特性是,当Bradley-Terry模型完美拟合我们的偏好数据,并且RLHF学习到最优奖励函数时,RLHF和DPO的全局优化器是相同的。

这是一个重要的等价结果;然而在实践中:

Bradley-Terry模型通常不能完美地拟合偏好数据。#
RLHF学习到的奖励函数不会是最优的奖励函数。#
在高度非凸的损失景观(例如LLM)上进行梯度下降找不到全局优化器。#

例如,偏好循环会导致Bradley-Terry模型无法完美拟合数据。Bradley-Terry模型假设偏好具有传递性。例如,如果和成立,则模型预期结果为。但如果结果为,则存在循环,传递性被破坏。

思维链#

Q什么是思维链?思维链有什么作用?#

思维链(Chain of Thought,CoT) 是让AI模仿人类分步推理的技术,核心是将复杂问题拆解为多个中间步骤展示出来。本质是一种提升AI推理可靠性与透明度的实用技术,推动输出从“答案”转向“过程”。

作用:

提高复杂任务准确率(尤其数学、逻辑推理等)。#
增强可解释性(暴露推理过程,便于理解与纠错)。#
拓展能力边界(支持多步骤规划、代码生成等深层任务)。#

Q如何微调出带有思维链的LLM推理模型?#

PPO:奖励模型奖励那些带思维链的输出。#
DPO:正例数据带有思维链,负例数据不带思维链。#
GRPO:使用基于规则的奖励函数微调LLM。#

在不微调的情况下,使用推理时间扩展,来让LLM产生带有思维链的输出。本质上是PromptEngineering。

Q带有思维链的推理模型优缺点?#

Q现阶段LLM的对齐阶段分为sft和rlhf阶段,我们可以跳过sft阶段直接进行rlhf么?#

当然可以。GRPO就可以做到这一点。让模型自动产生思维链。然后训练出了DeepSeek-R1-Zero。但有SFT数据集不用也太浪费了,所以一般都是在sft微调后的模型上做rlhf。