强化学习 · 尚硅谷大模型技术之高频面试题

RLHF#

Qon-policy和off-policy有什么区别？#

翻译#

on-policy：在策略，同策略，在线策略

off-policy：离策略，异策略，离线策略

定义及区别#

on-policy：智能体和环境进行实时交互，实时获得反馈并更新策略。#

小明边下棋边学习下棋就是同策略学习。

所以原始策略梯度法就是同策略学习。

off-policy：智能体与环境无实时交互，通过事先收集的离线数据集学习。#

小明通过看别人下棋来学习下棋。就是异策略学习。

PPO：使用旧的策略采样的数据来学习新的策略，但由于旧的策略和新的策略偏差不大，所以PPO算是同策略学习。
DPO：使用了偏好数据集，是不是强化学习都有争议。
GRPO：针对PPO的改进，所以是同策略学习。

Q主流的强化学习算法及其核心公式#

近端策略优化PPO#

目标函数：

直接偏好优化DPO#

目标函数：

为待优化的策略（模型），
为参考模型（通常为初始模型），
为超参数，控制与参考策略的偏离程度，
为 sigmoid 函数。

组相对策略优化GRPO#

目标函数：

Q有哪些PPO算法的调参经验？#

PPO关键参数设置#

裁剪范围 (ε)#

通常设为 0.1-0.3，如原始论文建议 ε=0.2，用于限制策略更新幅度，平衡稳定性与收敛速度。

折扣因子 (γ) 和 λ#

γ（长期回报折扣）：常取 0.99-0.995
λ（GAE偏差-方差权衡）：常取 0.95-0.98

两者共同影响信用分配和优势估计的平滑度。

其他重要参数#

学习率：需随训练衰减（如 3e-4 → 1e-5）
批量大小：足够大以保证优势估计稳定
训练轮数（epoch）：每批数据训练 3-10 轮

奖励模型的训练（PPO主要难点）#

PPO依赖奖励模型，但奖励模型训练面临三大挑战：

目标定义困难#

奖励需同时兼顾多个维度（如推理准确性、安全性、有用性），目标难以量化统一。

数据收集成本高#

依赖大量人类标注的偏好数据，成本高昂且难以规模化。

模型设计权衡#

参数量太小：奖励准确性不足
参数量太大：推理计算开销过高

奖励模型损失函数为：

其中人类偏好回答A优于B。

算法演进方向#

正是由于上述原因，后续DPO、GRPO等算法才试图绕过显式奖励模型训练，直接通过偏好数据优化策略，简化训练流程并降低对奖励模型的依赖。

QDPO训练时，chosen和rejected的reward一起下降的可能原因？#

如果数据没有标注好，那么可能出现下面的数据标注，偏好为

code

A>B>C>A
{
	"chosen":A,
	"rejected":B,
}
{
	"chosen":B,
	"rejected":C,
}
{
	"chosen":C,
	"rejected":A,
}

这样的数据偏好，直接把dpo整懵了。不知道该提高输出哪个回答的概率了。

Q如何看待各种PPO的平替算法dpo/kto/rrhf/slic/orpo/samug/remax等算法号称性能等能超过PPO？#

我们注意到RewardModel有个很有意思的点，当使用大模型来搭建rewardmodel时，我们获得的可能不仅仅是人类标注中蕴含的那部分知识，同时还激发了模型在预训练过程中学到的一部分能力来做判别，这是我认为PPO和DPO一个比较重要的区别，甚至我们还可以对rewardmodel做一些提示词工程。举一个具体例子，可能我们给的所有标注都是没有长度偏好的，但是rewardmodel在预训练过程中就理解到详细的回答可能是更专业，更受人喜欢的，这样的知识就会通过PPO传导给policy模型，而DPO没有这样的效果。

Q在PPO过程中，reward model的效果上会有什么问题？#

rewardmodel的数据本身是有限标注的，那么在PPO训练过程中，模型产生的新样本可能是分布外的（OOD问题，outofdistribution），那么rewardmodel的准确率可能会降低；更极端的情况下，policy模型可能找到一些hacking解，虽然可能毫无意义，但是获得了很高的reward；这里可能可以用多个奖励模型投票的方式来增强鲁棒性。

Q奖励模型应该如何选择？#

奖励模型的选择应该注意一下几点：

数据质量 > 模型大小
“对齐目标”必须明确
考虑鲁棒性和对抗性测试
重视可解释性与校准度
与策略模型规模匹配
考虑效率与成本

总结：关键在于用高质量数据精确、鲁棒地定义你希望强化的行为，并警惕其被欺骗。它是整个对齐过程中最易出现偏差的环节。

QDPO训练可能会出现什么问题？#

梯度爆炸或消失：由于DPO更直接地优化策略目标函数，可能导致策略更新过快或过剧，从而导致梯度爆炸或消失的问题。

收敛性问题：DPO没有像PPO那样的机制来限制策略更新，因此可能在训练过程中出现不稳定或策略崩溃的情况。

探索和利用之间的平衡问题:由于DPO直接最小化目标函数，可能会倾向于过早地进行利用，导致探索不足，从而无法找到全局最优解。

Q对比一下PPO，DPO，GRPO#

QPPO的缺点是什么？#

在训练PPO的过程中，需要4个模型同时加载到GPU中，策略模型（要微调的大模型），冻结的参考模型，价值函数模型（value head，线性层），以及奖励模型。需要很大的算力。

QDPO的偏好数据集长什么样子#

code

{
	"prompt":"....",
	"chosen":"....",
	"rejected":"....",
}

三元组。

Q在什么情况下，DPO在数学上等价于PPO？#

DPO的一个关键特性是，当Bradley-Terry模型完美拟合我们的偏好数据，并且RLHF学习到最优奖励函数时，RLHF和DPO的全局优化器是相同的。

这是一个重要的等价结果；然而在实践中：

Bradley-Terry模型通常不能完美地拟合偏好数据。#

RLHF学习到的奖励函数不会是最优的奖励函数。#

在高度非凸的损失景观（例如LLM）上进行梯度下降找不到全局优化器。#

例如，偏好循环会导致Bradley-Terry模型无法完美拟合数据。Bradley-Terry模型假设偏好具有传递性。例如，如果和成立，则模型预期结果为。但如果结果为，则存在循环，传递性被破坏。

思维链#

Q什么是思维链？思维链有什么作用？#

思维链（Chain of Thought，CoT）是让AI模仿人类分步推理的技术，核心是将复杂问题拆解为多个中间步骤展示出来。本质是一种提升AI推理可靠性与透明度的实用技术，推动输出从“答案”转向“过程”。

作用：

提高复杂任务准确率（尤其数学、逻辑推理等）。#

增强可解释性（暴露推理过程，便于理解与纠错）。#

拓展能力边界（支持多步骤规划、代码生成等深层任务）。#

Q如何微调出带有思维链的LLM推理模型？#

PPO：奖励模型奖励那些带思维链的输出。#

DPO：正例数据带有思维链，负例数据不带思维链。#

GRPO：使用基于规则的奖励函数微调LLM。#

在不微调的情况下，使用推理时间扩展，来让LLM产生带有思维链的输出。本质上是PromptEngineering。

Q带有思维链的推理模型优缺点？#

Q现阶段LLM的对齐阶段分为sft和rlhf阶段，我们可以跳过sft阶段直接进行rlhf么？#

当然可以。GRPO就可以做到这一点。让模型自动产生思维链。然后训练出了DeepSeek-R1-Zero。但有SFT数据集不用也太浪费了，所以一般都是在sft微调后的模型上做rlhf。