2025.03论文阅读
- ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding
基于过程奖励模型PRM的检索增强系统存在以下挑战:
(1)缺乏解释:现有的PRM通常会生成无法解释的标量分数 (2)PRM训练数据的分布偏差:通过蒙特卡洛树方法收集过程监督数据集往往会导致分布偏差,其中大多数问题会获得不成比例的高分。因此,PRM难以识别错误的步骤 (3)PRM的早期步骤偏差:由于早期步骤的随机性和不确定性较大,与更接近推理终点的步骤相比,PRM在早期的推理步骤中预测奖励的准确率较低 (4)缺乏推理优化:这些方法依赖现成的LLM作为生成器,没有在post-training阶段加入推理优化
论文提出了一种可信过程奖励机制,来增强基于PRM的RAG推理。可信过程奖励通过两种模型进行实现:(1)过程奖励模型PRM,他提供的标量分数虽然准确,但缺乏可解释性 (2)过程解释模型PEM,它为PRM的分数生成自然语言解释,有助于优化分数较低的早期步骤
作者在post-training阶段引入了步骤级(step-level)离线强化微调,来增强RAG系统的推理能力。在每次迭代中,使用基于可信过程奖励指导的蒙特卡洛树来生成高质量的step-level偏好数据,这些数据用于优化模型,从而显著提升系统的推理性能。
ReARTeR的策略模型$\pi_\theta$包括一个生成器G(可进行post-training进行推理增强),以及一个检索器E。此外,还结合了过程奖励模型R和过程解释模型C。
2025.03论文阅读
http://example.com/2025/04/14/20250414/