Peter Think Tank
  • 首页
  • 归档
  • 标签
  • 关于
  • 友链
  • 文档
    主题博客 配置指南 图标用法

共计 33 篇文章


2025

05-01
<BTC> 密码学原理,数据结构,协议,实现
04-19
RLHF(三):基于TRL的GrpoTrainer详解
04-18
RLHF(二):偏好数据采集
04-17
RLHF(一):LLM post-training
03-25
Syncthing安装
03-15
强化学习系列(五):Policy Gradient
03-14
强化学习系列(四):DQN算法
03-12
强化学习系列(三):Model-Free Control
03-11
Lora Adapter调试跟踪
03-08
强化学习系列(二):Model-free Prediction
1234

搜索

Hexo Fluid