无标题
原型=动态演化的语义锚点 原型的关键作用 1. 类级表示 经过层级学习、去噪后的特征,更纯净、更有代表性 2. 对比学习的监督信号 不只是"拉近同类",而是"拉向类中心" 语义信息: 原型包含了这个类的核心特征 例如:猫原型 = “有毛” + “四条腿” + “小体型” 辅助分类: 新样本可以和各类原型对比 与哪个原型最接近,就属于哪一类 知识迁移: 原型可以在不同任务间共享
Agentic RL:veRL AgentLoop 全流程与计算细节(Async Rollout、状态机、Tool-Interaction)
这篇文章对应视频:【[Agentic RL] 14 verl AgentLoop 全流程与计算细节,async rollout 实现,状态机,tool / interaction】(BV18d6sBpEZq)。 我会用“系统 + 数据契约”的方式把 AgentLoop 讲清楚:不是复述视频,而是把你真正会卡住的点拆开,直到你能做到: 读 AgentLoop 相关代码时,能快速定位“当前在数据流的哪一段”。 你能解释清楚:为什么 agent loop 输出必须是交错轨迹(LLM token + tool obs token),以及为什么必须带 response_mask。 你能把“tool / interaction / termination / reward attach”这几个最容易写乱的逻辑写成一套可 debug 的状态机。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 建议先读(否则你会觉得本文有点“infra 细节过密”): 12 先建立 AgentLoop 的架构直觉(async / sticky...
Agentic RL:veRL Infra AgentLoop 代码串讲(Multi-turn 推理与 Ray Trainer)
这篇文章对应视频:【[Agentic RL] 13 verl infra AgentLoop 代码串讲,multi-turn 推理与 ray trainer】(BV1MizSBJEbi)。 但我不会把它写成“逐句视频笔记”。定位是:把 verl 的 AgentLoop 代码路径和 RayPPOTrainer 的训练主循环串起来,让你做到: 读代码不迷路:知道入口在哪、数据在哪流、每个模块的边界是什么。 能把 multi-turn 推理跑成一个稳定的服务:知道要保什么状态、哪些状态必须 sticky、哪些必须 mask。 能 debug:遇到卡死/吞吐低/奖励对不上/轨迹错位,知道该查哪层日志。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 前置建议(不然你会“看懂一堆类名,但不知道为什么要这么做”): 12 先建立 AgentLoop 的架构直觉(async / sticky / hybrid /...
Agentic RL:veRL Infra AgentLoop(AgentLoopManager、Async Rollout 与 Hybrid 推训)
这篇文章对应视频:【[Agentic RL] 12 verl infra AgentLoop 基本概念及流程,AgentLoopManager,hybrid训练与推理】(BV135zrBaEEU)。 如果你已经看完我在上一篇里写的 “Agent Loop 为什么需要 async rollout” 与 “response_mask 基本概念”,那么这篇就是 infra 深挖版:把 verl 的 AgentLoop 体系从“能用”讲到“你能改、能调、能排障”。 你看完应该能回答这些工程问题: AgentLoopManager / Worker / AgentLoop / AsyncLLMServerManager 各自负责什么,边界怎么划? 为什么 async rollout 不是优化项,而是 multi-turn tool use 的必要条件?它和 vLLM 的 continuous batching 怎么配合? sticky session 为什么必须有?它和 prefix cache、load balancing 是什么关系? “hybrid...
Agentic RL:重新理解 DPO(KL 正则 RL、隐式奖励模型与缺陷)
这篇文章对应视频:【[Agentic RL] 11 重新理解 DPO,带 KL 正则的 RL 目标函数推导,隐式的奖励模型,DPO 可能的缺陷与不足】(BV1N16ZBuERA)。 我不会把它写成“逐句视频笔记”,而是把 DPO 放回一个更稳的框架里:KL 正则的 RL 目标函数与概率建模(Bradley-Terry)。你看完应该能回答这 3 个问题: DPO 到底在优化什么,它和 “reward - β KL” 的 RL 目标是什么关系? 为什么说 DPO 有一个“隐式的奖励模型”(implicit RM),它是什么形式? DPO 为什么会出现一些看起来反直觉的问题(reward hacking / 过拟合 / 生成质量掉 / 长度偏置),以及你在工程里怎么防。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 关联阅读(建议顺序): 先把 KL-constrained RL 的分布视角打通(π* 与 P*) BT/MLE 的概率建模视角(你会更容易理解 DPO 的 logistic...
Agentic RL:分布视角理解 SFT 与 RL(Forward/Reverse KL、分布与奖励)
这篇文章对应视频:【[Agentic RL] 10 分布的视角理解 LLM 的 SFT 训练和 RL 训练,Forward/Reverse KL,分布与奖励】(BV1WvrGBGEbf)。 我会按“分布匹配(distribution matching)”的视角,把 SFT 与 RL(RLHF/RLVR/RFT/GRPO/DAPO…)放到同一个坐标系里解释清楚: SFT 本质是 forward KL:用数据分布 $P_{\text{data}}$ 去“覆盖”模型分布 $\pi_\theta$(mode-covering)。 带 KL 正则的 RL 本质是 reverse KL:用模型分布 $\pi_\theta$ 去“追逐”一个由 reward 定义的目标分布 $P^*$(mode-seeking)。 你在工程里看到的 KL、entropy、以及“reward in loss vs in reward”,都只是这套分布视角的不同落地方式。 系列导航: Agentic RL:系列导航(PG...
Agentic RL:Reward Model Insights(Bradley-Terry、MLE 与深度学习)
这篇文章对应视频:【[Agentic RL] [RM] 09 Reward Model insights,理解概率建模(Bradley-Terry)、MLE、深度学习的关系】(BV1z4vkBBEgD)。 我不会把它写成“逐句笔记”,而是把 RM 的核心拆成一个你能反复复用的框架: 最顶层是 MLE(决定 loss),中间层是 Bradley-Terry(赋予概率意义),最底层是 Deep Learning(提供函数逼近与表征能力)。 如果你把 Reward Model 当成“又一个神经网络”,你很容易在训练/调参/诊断上迷路;但只要把它当成一个概率模型的参数化实现,很多现象会瞬间可解释(包括:为什么 RM 会偏向“拉平”、为什么 KL 约束几乎是必需、为什么 intransitive 数据会让 RM 变钝)。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 关联阅读(建议顺序): RL4LLM 最小闭环:reward + PG/KL 的工程细节 PPO/GRPO 中 KL...
Agentic RL:Tokenizer 编解码非对称性与 Token-in-Token-out(RL 训练崩溃的根因)
这篇文章对应视频:【[veRL] tokenizer 编解码的非对称性,RL 训练崩溃到 Agent loop 中的 token in token out】(BV1b2pDzYEY2)。 我不会把它写成“视频复述”,而是把它抽象成一个你做 RL4LLM / Agentic RL / Multi-turn Tool Use 一定会遇到的工程定律: 在 RL 训练里,token_ids 才是“行为(action)”本体;把它 decode 成文本、再 encode 回去,往往已经不是同一个行为了。 一旦你在 rollout 的链路里出现 decode → encode(尤其是 multi-turn),你就可能让 PPO/GRPO 训练变成“在错误分布上算 logprob”,表现为: approx_kl/clipfrac/loss 统计异常 reward curve 不上升,甚至彻底不收敛 multi-turn agent loop 越跑越乱(历史拼接后 token 逐步漂移) 系列导航: Agentic RL:系列导航(PG...
Agentic RL:veRL MultiTurn Tool Use 与 Coding Agent SFT(Cold Start for RL)
这篇文章对应视频:【[Agentic RL] [VeRL] 08 MultiTurn Tool Use, Coding Agent SFT 训练,Cold Start for RL】(BV19PmwB5ERd)。 但我不会把它写成“逐句复盘”的笔记,而是把它抽象成一套你能复用的工程方法论:如果你要做一个 multi-turn tool-use 的 coding agent,并且希望后续能接上 PPO/GRPO/DAPO 这类 RL 训练,你在 数据、mask、rollout 结构、reward 形态 上要先把哪些坑填平。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 关联阅读(建议顺序): SFT trainer 主篇:交叉熵 / loss mask / scheduler SFT 补充:teacher forcing / shift / mask 对齐 RL 算法侧:GRPO/RLOO/REINFORCE++ 与 baseline 推理侧:vLLM...
Agentic RL:veRL FSDP SFT Trainer 补充(Teacher Forcing、Shift Labels/Logits、Loss Mask)
这篇文章对应视频:“[veRL] fsdp sft trainer 补充,teacher forcing、shift labels shift logits、loss mask”(BV1eWjtzbEdP)。 它是上一篇 SFT trainer 文章的“补充篇”,专门把三个最容易写错、但一错就会把模型训歪的细节讲透: Teacher forcing:SFT 到底在“喂什么”给模型,喂错会导致什么偏差。 Shift labels / shift logits:为什么 causal LM 的 CE loss 天生存在“错一位”,实现里你必须显式对齐。 Loss mask:multi-turn + tool-use 数据里,你到底要监督哪些 token;mask 在 shift 前后怎么对齐。 系列导航: Agentic RL:系列导航(PG Loss、TRPO、PPO-Clip) 关联阅读(建议先看主篇再看补充): veRL:FSDP SFT Trainer 主篇(交叉熵 / loss mask /...

