Peter Think Tank
首页
归档
标签
关于
友链
文档
主题博客
配置指南
图标用法
共计 23 篇文章
2025
04-19
RLHF(三):基于TRL的GrpoTrainer详解
04-18
RLHF(二):偏好数据采集
04-17
RLHF(一):LLM post-training
04-14
2025.03论文阅读
03-25
Syncthing安装
03-15
强化学习系列(五):Policy Gradient
03-14
强化学习系列(四):DQN算法
03-12
强化学习系列(三):Model-Free Control
03-11
Lora Adapter调试跟踪
03-08
强化学习系列(二):Model-free Prediction
1
2
3
搜索
×
关键词
博客在允许 JavaScript 运行的环境下浏览效果更佳