从推理式思考到智能体式思考：大模型 RL 训练范式的下一次跃迁

前阿里千问大模型负责人林俊旸近期发布了一篇关于长文，标题是：From "Reasoning" Thinking to "Agentic” Thinking。

作者的观点是：OpenAI 的o1, DeepSeek 的 R1 证明了当反馈信号足够可靠、基础设施足够给力时，在语言模型之上做强化学习，确实可以带来质的认知能力提升。但随着模型处理的任务越来越复杂，所处环境与外界的交互越来越多时，rollout 会变慢且被阻塞，因为训练依赖完整轨迹，但这些轨迹迟迟回不来，这就导致整条管线的 GPU 利用率会远低于传统推理式 RL 所能达到的水平。

当任务是存粹推理时，路径明确，规则清晰，评估器也干净。但在 Agent场景下，目标从“解决静态 benchmark 问题”转向了“解决交互式任务”，每一步都可能卡在代码执行、网络延迟、浏览器加载…，核心问题也变成了：模型能不能以一种持续支撑有效行动的方式去思考？

下面是全文翻译

从「推理式」思考到「智能体式」思考

过去两年里，我们重新塑造了评估模型以及对模型期待的方式。OpenAI 的 o1 证明，“思考”本身可以成为一种一等公民能力：可以专门为此训练，也可以直接暴露给用户使用。DeepSeek-R1 则证明了，这种以推理为核心的后训练范式完全可以在头部实验室之外被复现和规模化。

OpenAI 把 o1 描述为一个通过强化学习训练出来、会“先思考再回答”的模型。DeepSeek 则把 R1 定位为一个在推理能力上能与 o1 竞争的开源模型。

这一阶段非常重要。但 2025 年上半年，业界讨论更多的仍然是“推理式思考”：如何让模型在推理阶段花更多算力、如何用更强的奖励信号来训练、如何向用户暴露或控制那部分额外的推理努力。现在的问题变成：下一步是什么？我认为答案是「智能体式思考」：为了行动而思考，在与环境交互的过程中思考，并根据来自真实世界的反馈持续更新自己的计划。

一、o1 和 R1 的崛起真正教会了我们什么？

第一波推理模型让我们明白，如果想在大语言模型上真正把强化学习做大做深，就必须拥有确定、稳定且可扩展的反馈信号。数学、代码、逻辑等可验证领域因此变得核心，因为这些场景下的奖励远比泛化的偏好监督更强，它们允许 RL 直接针对“正确性”优化，而不仅仅是“看起来合理”。

在这样的背景下，基础设施就变得至关重要。

一旦模型被训练成能够在更长的轨迹上推理，RL 就不再只是 SFT 之上的一个“轻量附加层”，而会升级为一个系统级问题。你需要大规模 rollout，高吞吐的验证系统，稳定的策略更新，以及高效的采样机制。推理模型的出现，本质上既是算法和建模的故事，也是基础设施的故事。

OpenAI 把 o1 描述为一条基于 RL 的“推理线”，而 DeepSeek 随后的 R1 则进一步强化了这一方向：真正做推理强化学习，需要大量专门的算法和基础设施投入。第一次重大转变，是从“放大预训练”转向“放大推理阶段的后训练”。

二、真正的难题从来不只是「把思考模式和指令模式合并」

2025 年初，我们在 Qwen 团队内部曾有一个颇为雄心勃勃的蓝图：理想系统应该统一“思考模式”和“指令模式”。它可以支持可调节的推理强度，有点类似低 / 中 / 高三档思考等级；更理想的情况是，模型可以根据提示和上下文自动推断所需的推理深度：什么时候可以秒答，什么时候应当多想一会，什么时候要在特别难的问题上投入大量算力。

从概念上讲，这个方向是对的。Qwen3 是最早、也最清晰的一批公开尝试之一：它提出了“混合思考模式”，在同一个模型家族中同时支持思考和非思考行为，强调可控的推理预算，并设计了一个显式包含“思考模式融合”的四阶段后训练流程，也包括长 CoT 冷启动和推理式 RL。

但「合并」这件事，说起来容易，做起来极难。真正难的是「数据」。

当人们讨论如何合并思考模式和指令模式时，往往首先想到的是模型侧的兼容性：能不能用一个 checkpoint 支持两种模式、能不能用一个 chat 模板在两种模式间切换、能不能在同一套服务架构里暴露出合适的开关。但更深层的问题在于：两种模式在数据分布和行为目标上其实相差很大。

在试图平衡“模型合并”和“提升后训练数据质量与多样性”的过程中，我们并不是次次都做对了。同时，在这一迭代过程中，我们也非常关注真实用户是如何使用思考模式和指令模式的。

一个强指令模型，通常因为以下特征而被奖励：直接、简洁、格式严格遵守、在重写、标注、模板化客服、结构化抽取、运营问答等高频企业任务上延迟极低。一个强思考模型则因这些特征而被奖励：在困难问题上愿意多花 token，保持中间推理结构的连贯性，探索不同路径，并保留足够丰富的内部计算，以显著提升最终正确率。

这两种行为画像天生是拉扯关系。如果在合并数据时不进行精细的策划和筛选，最终往往会导致两头都一般：所谓“思考”变得又吵又拖沓、缺少决断力，而“指令”模式则变得没那么干脆、没那么稳定，还比用户愿意付费的价格要“贵”。

现实中，“分家”依然非常有吸引力。2025 年稍晚，在 Qwen3 最初的混合 framing 之后，我们在 2507 这一代开始发布明确区分 Instruct 和 Thinking 的更新版本，包括单独的 30B 和 235B 变体。在商业场景中，大量客户仍然强烈需要高吞吐、低成本、强可控的指令模式，以支撑各种批量任务。在这些场景下，“合并”并不是一个显而易见的收益点。把两条线拆开，反而能让团队更专注、更干净地解决各自模式面临的数据和训练问题。

也有其他实验室选择了另一条路径。Anthropic 公开强调一种一体化的模型理念：Claude 3.7 Sonnet 被定位为一个混合推理模型，用户可以选择普通回答或扩展思考，API 用户则可以设置思考预算。Anthropic 公开表示，他们认为推理应该是一个内生的一体化能力，而不应该是单独的一条模型线。GLM-4.5 也以混合推理模型自居，在同一个体系内统一了思考模式、非思考模式、代码和智能体能力；DeepSeek 随后在 V3.1 中提出了类似的“Think & Non-Think”混合推理。

关键问题在于：这种“合并”到底是不是有机的。如果所谓融合只是把思考模式和指令模式“塞进同一个 checkpoint”，但行为上仍然像两个被硬拼在一起的人格，那产品体验依旧不会自然。一次真正成功的融合，应该呈现的是一条连续平滑的“推理力度光谱”。模型应该能表达细颗粒度的推理强度，最好还能自适应地在其中选择。类似 GPT 那样的“算力预算控制”，其实就是在朝这个方向迈进：把推理视作一种对计算资源的策略决策，而不是简单的二元开关。

三、为什么 Anthropic 的路线是一种有价值的纠偏

Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述相对克制。他们强调一体化推理、用户可控的思考预算、真实世界任务、代码能力，以及随后在扩展思考中使用工具的能力。Claude 3.7 被定位为一个带可控预算的混合推理模型；Claude 4 在此基础上进一步允许推理过程与工具调用交织，同时又强调代码、长周期任务和智能体工作流是主要目标。

让推理轨迹变长，本身并不会自动让模型更聪明。很多时候，如果你看到的是极其冗长的“可见推理”，那反而说明模型在算力分配上出了问题。如果一个模型对所有事情都用同样啰嗦的方式推理，它很可能是在“不会取舍、不会压缩、不会行动”。

Anthropic 的路线提醒我们：思考应该围绕目标工作负载来塑形。如果目标是编程，那么思考应该帮助模型更好地在代码库中导航、做任务分解与规划、处理错误恢复、以及 orchestrate 工具。如果目标是智能体工作流，那么思考的重点应该是提升长周期执行的质量，而不是只生成看上去很厉害的中间文字。

这种“针对性效用”的强调，指向了一个更大的转变：我们正在从“训练模型的时代”走向“训练智能体的时代”。

我们在 Qwen3 的博客里就把这点写得很直接：“我们正在从一个专注于训练模型的时代，转向一个以训练智能体为中心的时代”，并把未来 RL 的进展明确地系在“来自环境的长程反馈”上。

一个智能体，是一个能够制定计划、决定何时行动、调用工具、感知环境反馈、修正策略，并在长时间尺度上持续运作的系统。它的本质，是与世界的闭环交互。

四、「智能体式思考」真正意味着什么？

智能体式思考，是一个完全不同的优化目标。推理式思考通常根据“最终答案前的内部思考质量”来评判：模型是否解出了定理、是否写出了证明、是否生成了正确代码、是否在各种 benchmark 上通过。智能体式思考关注的是：模型在与环境交互的过程中，能否持续向前推进。

核心问题，不再是“模型能不能想得够久？”，而是“模型能不能以一种持续支撑有效行动的方式去思考？”

智能体式思考不得不处理很多单纯推理模型可以大体避开的事情：

决定何时停止思考并真正采取行动
选择应该调用哪些工具以及调用顺序
吸收来自环境的嘈杂或不完整信息
在失败之后重新修订计划
在多轮对话、多次工具调用中保持整体一致性

智能体式思考，就是通过行动来推理的模型。

五、为什么智能体式 RL 基础设施更难

一旦目标从“解决静态 benchmark 问题”转向“解决交互式任务”，整套 RL 堆栈都会发生变化。传统用于推理式 RL 的基础设施已经不再够用。

在推理式 RL 中，你往往可以把 rollout 当作相对封闭的轨迹，评估器也比较干净、规则明确。而在智能体式 RL 中，策略被嵌入到一个更大的“挂架”（harness）中：工具服务、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统、编排框架……环境不再只是一个静态的“答案判定器”，而是整个训练系统的一部分。

于是，一个新的系统性要求出现了：训练与推理必须更干净地解耦。否则 rollout 吞吐会迅速崩塌。

想象一个需要执行代码的编程智能体：它必须把生成的代码丢给实时测试框架执行。推理侧在等待执行结果时会被阻塞，训练侧则会长期拿不到完整的轨迹，整条管线的 GPU 利用率会远低于传统推理式 RL 所能达到的水平。一旦再叠加工具调用延迟、部分可观测性和有状态环境，这些低效会被成倍放大，导致实验速度在模型能力达到目标之前就已经“痛到撑不住了”。

更进一步，环境本身也开始成为一类一等一的研究成果。在 SFT 时代，我们痴迷的是数据多样性；在智能体时代，我们需要痴迷的是环境质量：稳定性、真实性、覆盖度、难度、状态多样性、反馈的丰富程度、抵抗被“套路”的能力，以及可扩展的 rollout 生成体系。

“环境建设”已经开始从一个附属项目，真正变成一个单独的创业方向。如果一个智能体是要在接近生产的环境里被训练去操作，那么环境本身就成了这套能力栈的核心组成部分。

六、下一片前沿，是「更可用的思考」

我判断，智能体式思考会成为未来占主导地位的思考形态。它有可能最终取代很大一部分旧式的“长篇独白式推理”：那种为了弥补缺乏交互，只能不断往外堆字的内部思考轨迹。即便是在非常困难的数学或编程任务上，一个真正先进的系统都应该有权力去搜索、去模拟、去执行、去检查、去验证、去修正。目标是以稳健且高产的方式解决问题。

训练这类系统最棘手的挑战，是奖励黑客（reward hacking）。一旦模型获得了有意义的工具访问能力，奖励黑客的风险就会急剧上升。一个拥有搜索能力的模型，可能学会在 RL 过程中直接查答案；一个编码智能体可能会利用仓库中“来自未来的信息”、滥用日志，或发现一些让任务前提失效的捷径。一个存在信息泄漏的环境，能让策略看起来像是“超人”，实际上却只是在学习作弊。

这正是智能体时代比推理时代更微妙的关键所在：更强的工具一方面让模型更有用，另一方面也显著放大了被错误优化利用的攻击面。我们有理由预期，下一批真正严肃的研究瓶颈，会来自环境设计、评估器的鲁棒性、反作弊协议，以及模型策略与真实世界之间更有原则的接口设计。

尽管如此，大方向是清晰的：有工具加持的思考，显然比孤立的思考更有用，也更有机会真正提升生产力。

智能体式思考也意味着“挂架工程”（harness engineering）会走向前台。核心智能越来越多地来源于多个智能体如何被组织在一起：一个负责规划和路由任务的 orchestrator，一批像领域专家一样行动的专用智能体，以及进一步细分的子智能体，负责执行更窄的任务，同时帮助控制上下文、避免污染、并保持不同层级推理之间的隔离。

未来的范式，会从“训练模型”转向“训练智能体”，再从“训练智能体”走向“训练系统”。

结语

推理浪潮的第一阶段奠定了一个重要事实：当反馈信号足够可靠、基础设施足够给力时，在语言模型之上做强化学习，确实可以带来质的认知能力提升。

更深层的转变，则是从“推理式思考”走向“智能体式思考”：从“想得更久”变成“为了行动而思考”。训练的核心对象已经发生了变化：它不再只是模型本身，而是“模型加环境”的整体系统，更具体地说，是智能体以及围绕它构建的那套挂架。

这也改变了我们最该在意的研究成果类型：模型架构和训练数据依然重要，但环境设计、rollout 基础设施、评估器的鲁棒性，以及多智能体之间如何通过接口协同，同样会变得关键。它也改变了“好好思考”意味着什么：不再是最长、最“可见”的那条思考轨迹，而是在真实世界约束下，最能持续支撑有效行动的那条思考轨迹。

同时，这也改变了竞争优势的来源。在推理时代，优势来自更好的 RL 算法、更强的反馈信号、更可扩展的训练流水线；在智能体时代，优势会来自更好的环境、更紧密的训练–服务一体化、更强的挂架工程能力，以及把模型决策与这些决策在现实世界中产生的后果闭环起来的能力。