RLHF(三):基于TRL的GrpoTrainer详解 写在前面:目前主流的LLM post-training框架主要有trl, OpenRLHF, verl。后两者集成度较高,适合对LLM零代码训练,而trl灵活性较强,这里主要对GRPO Trainer的训练流程进行梳理 2025-04-19 #LLM #RLHF
RLHF(二):偏好数据采集 ORM 和 PRMORM:结果奖励模型,是不管推理有多少步,对完整的生成结果进行一次打分,是一个反馈更稀疏的奖励模型PRM:过程奖励模型,是在生成过程中,分步骤,对每一步进行打分,是更细粒度的奖励模型 使用PRM可以在post-training和inference两个阶段提升模型的推理性能: Post-Training阶段:在偏好对齐阶段,通过在RL过程中增加PRM,对采样的结果按步骤输出奖励值 2025-04-18 #LLM #RLHF
RLHF(一):LLM post-training 1. PPO算法$L_{PPO} = \sum_{(s_t,a_t)}\frac{\pi_\theta(a_t|s_t)}{\pi_{ref}(a_t|s_t)}A(s_t,a_t) - \beta KL(\pi_\theta, \pi_{ref})$ PPO的训练步骤如下:(1)收集人类反馈,人工标注数据 (2)训练奖励模型 (3)采用PPO强化学习,优化策略 在LLM上使用PPO算法 2025-04-17 #LLM #RLHF
2025.03论文阅读 ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding基于过程奖励模型PRM的检索增强系统存在以下挑战:(1)缺乏解释:现有的PRM通常会生成无法解释的标量分数 (2)PRM训练数据的分布偏差:通过蒙特卡洛树方法收集过程监督数据集往往会导致分布偏差,其中大多数问题会获得不成比例的高分。因此,PRM难以识别 2025-04-14 #Recsys
Syncthing安装 下载安装1234567# 1、下载最新部署包curl -s https://api.github.com/repos/syncthing/syncthing/releases/latest | grep browser_download_url | grep linux-amd64 | cut -d '"' -f 4 | wget -qi -# 2、解压并安装tar 2025-03-25 #Tool
强化学习系列(五):Policy Gradient 写在前面:前面所提到的Q-value Based方法无法解决连续动作空间场景下的优化问题,因为Q-learning的策略是从多个离散动作中贪婪地选择最大Q值,在连续空间中,无法枚举所有动作。为此,本节讲述一种直接面向策略的优化方法:Policy Gradient 2025-03-15 #AI #Algorithm
强化学习系列(四):DQN算法 写在前面:前面讲解了在On-Policy和Off-Policy环境下如何进行策略提升的几种常用方法,但是在实际应用场景中,state的数量可能是非常庞大的,为了存储每个state-action pair所需要的lookup-table所需要的空间会很庞大,无法通过遍历的方式去evaluate每个state-action pair。这就需要我们考虑如何对Q,V进行建模,通过函数逼近的方法估计连续空间 2025-03-14 #AI #Algorithm
强化学习系列(三):Model-Free Control 写在前面:系列二中提及的MC/TD方法都是在已知策略$\pi$的前提下,估计每个状态的期望回报。前者是等到整个回合结束利用完整回报$G_t$来更新价值函数,后者利用一步预测和当前奖励动态更新价值函数。可以看到的是,这些方法知识学习了价值函数,并没有改变策略。在这一节,我们主要介绍一些常用的策略优化方法。 2025-03-12 #AI #Algorithm
Lora Adapter调试跟踪 打算花点时间看看在peft库中lora是怎么注入base model的,这里简单总结下: 首先写个测试程序: 123456789101112131415161718192021import torchfrom peft import LoraModel, LoraConfigfrom transformers import AutoModelForCausalLM, AutoTokenizermo 2025-03-11 #Code #debug
强化学习系列(二):Model-free Prediction 写在前面: Prediction任务是用来在给定策略$\pi$的前提下,基于价值函数和奖励函数来评估该策略的好坏。Control任务用来对策略进行提升和改进。根据是否已知状态转移矩阵(MDP transition)分为Model-Based Prediction和Model-free Prediction 2025-03-08 #AI #Algorithm