炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:网易科技)
在智能体(Agent)从实验室走向大规模商业落地的历史拐点上,AI云基础设施正经历一场从“无状态模型托管”向“智能体运行期(Agent Runtime)”的底层架构重塑,这不仅是技术的演进,更是决定企业AI应用单位经济学(Unit Economics)生死的关键战役。
在近期举办的Nebius Inflection 2026峰会上,一场关于AI基础设施真正走向商业化深水区的讨论引发了市场的强烈关注。Nebius联合创始人Roman Chernin提出了一个让全场技术人员与企业CIO产生共鸣的核心观点:“当智能体走向大规模生产时,传统的、无状态的模型服务架构将彻底崩溃,行业必须全面转向‘智能体运行期’基础设施。”
“客户希望智能体完成任务的成本,能让产品在经济上可行。”Roman Chernin 直言,“Token将成为下一个基础设施层,未来的付费模式将基于结果(Outcomes),而不是Token。”
当前,市场对AI的关注点已从单纯的“模型参数战”转向了真实的ROI(投资回报率)和云端算力消耗的经济账。正如Nebius CEO Arkady Volozh在会上透露,公司正朝着年底实现 800兆瓦至1吉瓦的运行电力迈进,并已锁定总计4吉瓦的算力容量,这意味着数十万乃至数百万张GPU的惊人规模。然而,支撑这种百亿美元级别扩产逻辑的核心,不再是卖基础算力,而是为企业解决“Token乱烧却不出活”的痛点。
规模化下的“恐怖放大器”:无状态推理为何失效?
在第一波AI浪潮中,市场的核心商业模式是“售卖Token”。开发模式极为线性:用户输入 →→ 经过API调用模型 →→ 模型返回Token →→ 结束。这是一种“无状态”的单次请求。
但Agent的行为逻辑完全不同。Roman Chernin指出:
在资本市场眼中,这种循环一旦失去控制,就是一场财务灾难。Roman 一针见血地指出了规模化下的恐怖放大器效应:
从微观概率来看:如果一个模型单次 API 调用的成功率是 95%,但当一个 Agent 为了完成某项复杂任务,需要在 Loop 中连续调用该模型及各类工具 15 次时,该 Agent 任务的终极成功率将暴跌至:(0.95)15≈46.3%。
这意味着超过一半的概率,Agent会在中间某个环节“死锁”或彻底跑偏(Over-scoping)。“一个糟糕的计划可能会烧掉比我们预算多10倍的Token。”Roman警告道。
Chernin在峰会上提出了一个被他称为"下一个循环"的概念,这也是整个Agent Runtime体系中最具商业想象空间的部分:
这意味着云平台的角色发生了本质转变:
Chernin指出了另一个常被忽视的结构性变化:
CEO Arkady Volozh在随后的演讲中补充了规模数据:Nebius目前运营超过200兆瓦算力,年底目标达到800兆瓦至1吉瓦,已签约预留容量超过3吉瓦,年底目标突破4吉瓦。
商业落地的硬性指标:Agent Runtime的五大核心技术要求
为了在生产环境中稳定、低成本、安全地运行成百上千个Agent,底层基础设施必须具备以下五大硬性指标:
① 确定性流式编排与多模型路由(Deterministic Orchestration & Routing)
② 长周期状态管理与持久化执行(Durable Execution)
③ 面向机器而非人类的高吞吐数据访问层(Grounding Data Layer)
④ 全Trace异步可观测性(Observability & Tracing)
⑤ 严苛的安全沙箱与成本兜底(Sandbox & Cost Caps)
从“调模型”到“控系统”:极致的ROI飞轮
用Nebius生态策略副总裁Devang Sachdev演示的医疗合规Agent演进案例,可以最直观地概括上述基建变革的商业价值:
最初用基础模型直接跑,单次合规审计任务耗时半小时,耗费657美元,且存在严重的数据陈旧和发散问题。而在建立起包含“开源大模型专有推理 + Tavily联网检索 + Pinecone结构化向量库 + Guardrails护栏沙箱 + LangSmith链路监控”的Agent Runtime完整飞轮后,成本瞬间暴跌至24美元(下降超96%),运行时间缩短至13分钟,且具备完美的商业可审计性。
“下一代AI的篇章不会由模型能做什么来定义。”Mark Boroditsky最后总结道,“它将由组织能够部署什么、企业能够信任什么、用户每天能够依赖什么来定义。”
这正是云基础设施向Agent Runtime演进的核心底层逻辑——用极其硬核、纵向集成的工程系统,把脆弱的AI模型包裹成企业可以百分之百信赖的现代生产力生产线。
值得注意的是,峰会圆桌讨论揭示了市场层面的真实压力。科技媒体The Information执行主编Amir Ifrati点出了一个正在发酵的叙事转折:
DataRobot首席产品官Venky对此直接表态:"当AI账单从每用户30美元的订阅变成数百万美元的行项目,每个人都开始追问ROI。"
Cognition(Devin)CEO Scott则从结果侧给出了模型路由的实践逻辑:
Nebius Inflection 2026峰会全文实录如下(由AI辅助翻译)