WPIRONMAN

发表于2026-02-26|算法解析强化学习|Agentic RL•强化学习•工程实践•Policy Gradient•CleanRL

如果你的目标是“尽快能改训练代码”，最有效的路径不是先啃公式，而是：先跑通一个最小可运行实现。直接改 reward 参数，观察策略行为变化。再回头用少量理论解释你看到的现象。这篇就是这个思路的实战版本。 1. 先跑通：最小 Agentic RL 脚本我已经在仓库里放了一个可运行脚本： /Users/wangpeng/博客/Hexo_Blog_Source/tools/agentic_rl_code_first.py 它是一个 code-first 的 Agentic 决策实验（contextual bandit）： ANSWER_NOW：直接回答 USE_TOOL：调用工具再回答 THINK_MORE：先思考再回答完整数据流非常清晰： Environment 给状态（confidence / tool_hint / complexity） PolicyNet 输出动作分布 REINFORCE loss 更新策略直接运行： 12cd "/Users/wangpeng/博客/Hexo_Blog_Source"python3...

Agentic RL：veRL AgentLoop 全流程与计算细节（Async Rollout、状态机、Tool-Interaction）

发表于2026-02-10|算法解析强化学习|Agentic RL•强化学习•PPO•veRL•verl•AgentLoop•Async Rollout•Tool Use•Interaction•Ray

这篇文章对应视频：【[Agentic RL] 14 verl AgentLoop 全流程与计算细节，async rollout 实现，状态机，tool / interaction】（BV18d6sBpEZq）。我会用“系统 + 数据契约”的方式把 AgentLoop 讲清楚：不是复述视频，而是把你真正会卡住的点拆开，直到你能做到：读 AgentLoop 相关代码时，能快速定位“当前在数据流的哪一段”。你能解释清楚：为什么 agent loop 输出必须是交错轨迹（LLM token + tool obs token），以及为什么必须带 response_mask。你能把“tool / interaction / termination / reward attach”这几个最容易写乱的逻辑写成一套可 debug 的状态机。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）建议先读（否则你会觉得本文有点“infra 细节过密”）： 12 先建立 AgentLoop 的架构直觉（async / sticky...

Agentic RL：veRL Infra AgentLoop 代码串讲（Multi-turn 推理与 Ray Trainer）

发表于2026-02-10|算法解析强化学习|Agentic RL•强化学习•vLLM•veRL•verl•AgentLoop•Ray•Trainer•Inference•SGLang

这篇文章对应视频：【[Agentic RL] 13 verl infra AgentLoop 代码串讲，multi-turn 推理与 ray trainer】（BV1MizSBJEbi）。但我不会把它写成“逐句视频笔记”。定位是：把 verl 的 AgentLoop 代码路径和 RayPPOTrainer 的训练主循环串起来，让你做到：读代码不迷路：知道入口在哪、数据在哪流、每个模块的边界是什么。能把 multi-turn 推理跑成一个稳定的服务：知道要保什么状态、哪些状态必须 sticky、哪些必须 mask。能 debug：遇到卡死/吞吐低/奖励对不上/轨迹错位，知道该查哪层日志。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）前置建议（不然你会“看懂一堆类名，但不知道为什么要这么做”）： 12 先建立 AgentLoop 的架构直觉（async / sticky / hybrid /...

Agentic RL：veRL Infra AgentLoop（AgentLoopManager、Async Rollout 与 Hybrid 推训）

发表于2026-02-10|算法解析强化学习|Agentic RL•强化学习•PPO•vLLM•veRL•verl•AgentLoop•Tool Use•Ray•SGLang

这篇文章对应视频：【[Agentic RL] 12 verl infra AgentLoop 基本概念及流程，AgentLoopManager，hybrid训练与推理】（BV135zrBaEEU）。如果你已经看完我在上一篇里写的 “Agent Loop 为什么需要 async rollout” 与 “response_mask 基本概念”，那么这篇就是 infra 深挖版：把 verl 的 AgentLoop 体系从“能用”讲到“你能改、能调、能排障”。你看完应该能回答这些工程问题： AgentLoopManager / Worker / AgentLoop / AsyncLLMServerManager 各自负责什么，边界怎么划？为什么 async rollout 不是优化项，而是 multi-turn tool use 的必要条件？它和 vLLM 的 continuous batching 怎么配合？ sticky session 为什么必须有？它和 prefix cache、load balancing 是什么关系？ “hybrid...

Agentic RL：重新理解 DPO（KL 正则 RL、隐式奖励模型与缺陷）

发表于2026-02-10|算法解析强化学习|Agentic RL•强化学习•RLHF•KL•Bradley-Terry•概率建模•DPO•Preference Optimization

这篇文章对应视频：【[Agentic RL] 11 重新理解 DPO，带 KL 正则的 RL 目标函数推导，隐式的奖励模型，DPO 可能的缺陷与不足】（BV1N16ZBuERA）。我不会把它写成“逐句视频笔记”，而是把 DPO 放回一个更稳的框架里：KL 正则的 RL 目标函数与概率建模（Bradley-Terry）。你看完应该能回答这 3 个问题： DPO 到底在优化什么，它和 “reward - β KL” 的 RL 目标是什么关系？为什么说 DPO 有一个“隐式的奖励模型”（implicit RM），它是什么形式？ DPO 为什么会出现一些看起来反直觉的问题（reward hacking / 过拟合 / 生成质量掉 / 长度偏置），以及你在工程里怎么防。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）关联阅读（建议顺序）：先把 KL-constrained RL 的分布视角打通（π* 与 P*） BT/MLE 的概率建模视角（你会更容易理解 DPO 的 logistic...

Agentic RL：分布视角理解 SFT 与 RL（Forward/Reverse KL、分布与奖励）

发表于2026-02-10|算法解析强化学习|Agentic RL•强化学习•RLHF•KL•概率建模•SFT•Forward KL•Reverse KL

这篇文章对应视频：【[Agentic RL] 10 分布的视角理解 LLM 的 SFT 训练和 RL 训练，Forward/Reverse KL，分布与奖励】（BV1WvrGBGEbf）。我会按“分布匹配（distribution matching）”的视角，把 SFT 与 RL（RLHF/RLVR/RFT/GRPO/DAPO…）放到同一个坐标系里解释清楚： SFT 本质是 forward KL：用数据分布 P_{\text{data}} 去“覆盖”模型分布 \pi_\theta（mode-covering）。带 KL 正则的 RL 本质是 reverse KL：用模型分布 \pi_\theta 去“追逐”一个由 reward 定义的目标分布 P^*（mode-seeking）。你在工程里看到的 KL、entropy、以及“reward in loss vs in reward”，都只是这套分布视角的不同落地方式。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）关联阅读（建议顺序）： PPO/GRPO...

Agentic RL：Reward Model Insights（Bradley-Terry、MLE 与深度学习）

发表于2026-02-10|算法解析强化学习|Reward Model•Agentic RL•强化学习•RLHF•Bradley-Terry•MLE•概率建模

这篇文章对应视频：【[Agentic RL] [RM] 09 Reward Model insights，理解概率建模（Bradley-Terry）、MLE、深度学习的关系】（BV1z4vkBBEgD）。我不会把它写成“逐句笔记”，而是把 RM 的核心拆成一个你能反复复用的框架：最顶层是 MLE（决定 loss），中间层是 Bradley-Terry（赋予概率意义），最底层是 Deep Learning（提供函数逼近与表征能力）。如果你把 Reward Model 当成“又一个神经网络”，你很容易在训练/调参/诊断上迷路；但只要把它当成一个概率模型的参数化实现，很多现象会瞬间可解释（包括：为什么 RM 会偏向“拉平”、为什么 KL 约束几乎是必需、为什么 intransitive 数据会让 RM 变钝）。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）关联阅读（建议顺序）： RL4LLM 最小闭环：reward + PG/KL 的工程细节 PPO/GRPO 中 KL...

Agentic RL：Tokenizer 编解码非对称性与 Token-in-Token-out（RL 训练崩溃的根因）

发表于2026-02-10|工程实践强化学习|Agentic RL•强化学习•veRL•verl•Tokenizer•Token-in-Token-out•Agent Loop

这篇文章对应视频：【[veRL] tokenizer 编解码的非对称性，RL 训练崩溃到 Agent loop 中的 token in token out】（BV1b2pDzYEY2）。我不会把它写成“视频复述”，而是把它抽象成一个你做 RL4LLM / Agentic RL / Multi-turn Tool Use 一定会遇到的工程定律：在 RL 训练里，token_ids 才是“行为（action）”本体；把它 decode 成文本、再 encode 回去，往往已经不是同一个行为了。一旦你在 rollout 的链路里出现 decode → encode（尤其是 multi-turn），你就可能让 PPO/GRPO 训练变成“在错误分布上算 logprob”，表现为： approx_kl/clipfrac/loss 统计异常 reward curve 不上升，甚至彻底不收敛 multi-turn agent loop 越跑越乱（历史拼接后 token 逐步漂移）系列导航： Agentic RL：系列导航（PG...

Agentic RL：veRL MultiTurn Tool Use 与 Coding Agent SFT（Cold Start for RL）

发表于2026-02-10|工程实践强化学习|Agentic RL•强化学习•veRL•verl•SFT•Tool Use•Multi-turn•Coding Agent•Cold Start

这篇文章对应视频：【[Agentic RL] [VeRL] 08 MultiTurn Tool Use, Coding Agent SFT 训练，Cold Start for RL】（BV19PmwB5ERd）。但我不会把它写成“逐句复盘”的笔记，而是把它抽象成一套你能复用的工程方法论：如果你要做一个 multi-turn tool-use 的 coding agent，并且希望后续能接上 PPO/GRPO/DAPO 这类 RL 训练，你在数据、mask、rollout 结构、reward 形态上要先把哪些坑填平。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）关联阅读（建议顺序）： SFT trainer 主篇：交叉熵 / loss mask / scheduler SFT 补充：teacher forcing / shift / mask 对齐 RL 算法侧：GRPO/RLOO/REINFORCE++ 与 baseline 推理侧：vLLM...

Agentic RL：veRL FSDP SFT Trainer 补充（Teacher Forcing、Shift Labels/Logits、Loss Mask）

发表于2026-02-09|工程实践强化学习|Agentic RL•强化学习•veRL•verl•SFT•FSDP•Teacher Forcing•Cross Entropy•Loss Mask

这篇文章对应视频：“[veRL] fsdp sft trainer 补充，teacher forcing、shift labels shift logits、loss mask”（BV1eWjtzbEdP）。它是上一篇 SFT trainer 文章的“补充篇”，专门把三个最容易写错、但一错就会把模型训歪的细节讲透： Teacher forcing：SFT 到底在“喂什么”给模型，喂错会导致什么偏差。 Shift labels / shift logits：为什么 causal LM 的 CE loss 天生存在“错一位”，实现里你必须显式对齐。 Loss mask：multi-turn + tool-use 数据里，你到底要监督哪些 token；mask 在 shift 前后怎么对齐。系列导航： Agentic RL：系列导航（PG Loss、TRPO、PPO-Clip）关联阅读（建议先看主篇再看补充）： veRL：FSDP SFT Trainer 主篇（交叉熵 / loss mask /...