被轻视的Rollout过程,是后训练的性能瓶颈,还是RL的ROI突破口?
创始人
2025-11-30 09:55:32
0

(来源:机器之心)

机器之心PRO · 会员通讯 Week 48

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1.被轻视的Rollout过程,是后训练的性能瓶颈,还是RL的ROI突破口?

Rollout 对 RL 后训练的 ROI 有何影响?为什么 Rollout 会占据 RL 后训练时间的 70%+?Rollout 和 Inference 有何区别?Rollout 如何实现 Scaling?近期工作如何改善 Rollout 计算效率?如何从根本提升 Rollout 对 RL 的训练效果?...

2. 2026 年,大模型未知的「能力拐点」能否实现可持续的业务增长?        

2026 年 AI 真能独立上班 8 小时?OpenAI 内部开始强调「进入战时状态、不再是默认赢家」?企业优先的 Anthropic,会在 OpenAI 之前盈利?Google、Meta 砸出的这轮 Capex,能换来多少「非泡沫」的 AI 增长?...

3. Sam Altman 为何认为「极速」比「廉价 Token」更值钱?

为何专家级用户愿为「毫秒级延迟」而非「低成本 Token」买单?「任务连贯性」如何取代「准确率」成为新的评价指标?在万物互联的时代,为何 OpenAI 要打造一台「断网」也能用的新计算机?人类精心设计的 Agent 工作流,反而是阻碍模型智力涌现的最大绊脚石?「Let it figure it out」 才是顶级 AI Agent 的最终解?...

本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 9 项,国外方面 11 项。

本期通讯总计 25180 字,可免费试读至 7% 

 消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元) 

要事解读① 被轻视的Rollout过程,是后训练的性能瓶颈,还是RL的ROI突破口?

引言:2025 年,强化学习(RL)已成为 LLM 后训练的核心技术路径。越来越多的研究工作发现 Rollout 环节即使 RL 后训练流程的资源消耗核心,也是决定训练效果的关键变量。围绕这一核心环节,近期有诸多探索尝试通过改善 Rollout 来实现更优的 RL 训练方案。

同时影响效率与效果,Rollout 或是 RL 后训练「投入产出比」的关键?

1、2025 年里,LLM 领域的研究重心已从预训练规模竞赛转向后训练能力深化,其中强化学习(RL)成为突破模型推理边界的关键路径,也让业界开始聚焦 RL 流程中的关键环节优化。[1-1]

① 在此趋势下,RL 后训练不再局限于人类偏好对齐(RLHF),包含 OpenAI o3 系列、DeepSeek-R1、Qwen2.5-Math 等工作均展示了可验证奖励的强化学习(RLVR)对提升 LLM 推理能力的帮助。

2、在 RL 后训练的 「生成 - 评估 - 更新」流程中,使用预训练 LLM 生成答案的 Rollout 的环节是影响 RL 训练效率和效果的关键因素,并且计算消耗最大的环节,因而引发了对这一环节的关注。[1-2] [1-3]

① 多项研究发现,Rollout 是 RL 后训练阶段的耗能大户,如港科大和阿里团队的「RollPacker 」论文分析发现 Rollout 环节占了 RL 后训练时间的 70%;字节和上海交大「RhymeRL」证明 Rollout 阶段占了 84%-91% 的时间。

3、Rollout 是源自 RL 的术语。在 LLM 的语境下,Rollout 特指模型基于当前的策略(Policy),从某个状态(Prompt)开始,生成完整或部分回答序列(Trajectory)的过程。[1-4]

① Rollout 和 Inference 共享 LLM 自回归生成的核心技术逻辑,二者均依赖 Transformer 架构的解码过程,且都会通过 KV Cache 缓存 Key-Value 矩阵加速生成(避免重复计算前文注意力)。然而,两者在核心目标、数据流向与计算模式上均有差异。

② Inference 追求 “单次生成的准确性与效率”,数据流向是单向的 “输入 - 输出”;而 Rollout 的目标是 “为训练提供多样化、有价值的轨迹样本”,数据生成后需回流至训练流程,且需通过多轮采样、多样性增强等策略确保样本质量,计算模式更强调 “批量性与探索性” 而非单次性能。

4、除了作为 “耗能大户”,Rollout 的轨迹质量直接决定 RL 训练的最终效果。劣质轨迹会导致模型陷入局部最优,优质轨迹则能激活模型的探索能力与推理潜力。

① 阿里巴巴「Roll」团队的工作发现,在数学推理 RL 训练中,采用随机采样 Rollout(轨迹与任务目标对齐度仅 41%)的模型,即使训练步数达到优质轨迹组的 2 倍,MATH 数据集准确率仍低 18%。[1-5]

② 蚂蚁的 Ling Team 则在 Ring-1T 万亿参数模型的训练中发现,未经过滤的 Rollout 轨迹(含错误推理步骤、逻辑断裂片段)会导致梯度计算偏差指数级累积。[1-6]

5、伴随业内对 Rollout 的环节的重视,有许多工作尝试从提高计算效率、改善 Rollout 轨迹质量等方面着手,探索更优的 RL 后训练方案。

花样改善计算效率,Rollout 也能 Scaling?

1、Rollout 环节的计算效率困境,本质是 “生成逻辑的串行特性” 与 “任务分布的长尾特性” 之间的根本性矛盾,因 Rollout 长尾延迟问题导致计算资源的「泡沫」(Bubble)现象。由此,许多探索工作都在试图从不同的角度提高计算效率。

① 「长尾延迟」指 “少量长请求占据多数耗时的分布失衡现象”,Rollout 即某些请求需要较长时间生成,导致所有 GPU 都需要等待最慢的请求,大量设备在等待期内处于空闲状态,也就是出现了「泡沫」。[1-8]

2、英伟达的研究者在 11 月提出了 BroRL 范式,通过扩展 Rollout 规模的方式让该环节更具计算与数据效率(Compute-and Data-Efficient),在更短时间内完成更高质量的训练,且 Scaling 上限更高。[1-7]

相关内容

央企提质增效拓蓝海
(来源:太原新闻网)转自:太原新闻网  国务院国资委近日发布《中央...
2025-11-30 10:35:38
中国,以最高票连任A类理事...
转自:扬子晚报国际海事组织第34届大会28日在英国伦敦举行新一届理...
2025-11-30 10:35:32
槲皮素哪个牌子效果好 槲皮...
(来源:衡水日报)转自:衡水日报在当下,空气污染、吸烟、厨房油烟以...
2025-11-30 10:35:28
CMF年度报告:建议202...
11月30日,中国宏观经济论坛(CMF)发布了年度报告(下称《报告...
2025-11-30 10:35:22
财说| 13个月重组折戟!...
界面新闻记者 | 袁颖琪天地在线(002995.SZ)一桩历时13...
2025-11-30 10:35:14
事关互联网安全监督检查 公...
来源:央视新闻客户端今天(11月30日),公安部网安局发布公告,为...
2025-11-30 10:35:06
华尔街尬捧TPU学术界懵了...
  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力...
2025-11-30 10:30:45
滨崎步不唱了,这是成本最低...
(来源:邢予青东京漫谈)日本歌星滨崎步原定于29号在上海的演出, ...
2025-11-30 10:30:38
李蓓:银行理财含权水平提升...
  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力...
2025-11-30 10:30:31

热门资讯

央企提质增效拓蓝海 (来源:太原新闻网)转自:太原新闻网  国务院国资委近日发布《中央企业高质量发展报告(2025)》,...
中国,以最高票连任A类理事国! 转自:扬子晚报国际海事组织第34届大会28日在英国伦敦举行新一届理事国选举。中国以最高票当选A类理事...
槲皮素哪个牌子效果好 槲皮素品... (来源:衡水日报)转自:衡水日报在当下,空气污染、吸烟、厨房油烟以及粉尘等因素,让肺部承受着持续不断...
CMF年度报告:建议2026年... 11月30日,中国宏观经济论坛(CMF)发布了年度报告(下称《报告》)。《报告》认为,2025年中国...
财说| 13个月重组折戟!天地... 界面新闻记者 | 袁颖琪天地在线(002995.SZ)一桩历时13个月的资产收购交易以终止结束。据悉...
事关互联网安全监督检查 公安部... 来源:央视新闻客户端今天(11月30日),公安部网安局发布公告,为规范公安机关对网络空间安全的监督检...
华尔街尬捧TPU学术界懵了:何...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:量子位)学术...
滨崎步不唱了,这是成本最低,最... (来源:邢予青东京漫谈)日本歌星滨崎步原定于29号在上海的演出, 突然以“不可抗拒力”为由在28日被...
李蓓:银行理财含权水平提升空间...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   11月28日,2...
专家:会聊天≠会思考,大语言模...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:IT之家)I...