强化学习框架

记录学习实践强化学习框架。

CSDN DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

GRPO训练的耗时主要来自于采样、训练等几个方面。其中，采样本身是PPO算法的重要组成部分。尤其是GRPO在PPO的基础上，使用采样代替value model的方案，这使得在GRPO训练中，采样的耗时的占比更是大大的增加了。而且GRPO中单query的采样数（即group size）一般比较大（DeepSeekMath论文中为64个），高采样频率对于推理引擎的挑战是巨大的。优化采样效率是提升GRPO整体训练速度的核心所在。

7B模型在训练期间，单iter的采样时间占比约为70%，这意味着应该允许训练资源根据实际情况，针对性的倾斜分配给采样计算。