炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:雷科技)
去年 DeepSeek V3 发布时,整个 AI 圈的气氛,和今年完全不一样。
那时候的讨论非常热烈,甚至有点像 ChatGPT 刚火爆全球,社交媒体上到处都是实测、跑分、成本分析,很多海外开发者第一次认真讨论一家中国大模型公司。国内和硅谷公司都意识到,原来除了 OpenAI、Anthropic、Google 之外,还有团队能把模型做到这个水平。
更关键的是,它还便宜。DeepSeek 带来的冲击不只是技术层面,更低的训练成本、更激进的工程优化、更高的推理性价比,都让整个行业重新思考大模型的竞争逻辑,很多人都将其视为真正的「Open AI」。
两周前,DeepSeek V4 发布,行业当然非常关注,很多开发者第一时间跑测试、做对比,但整个市场的情绪明显冷静了很多。过去两周,对普通用户来说,该用豆包、ChatGPT 的继续用,而对开发者群体来说,很多使用 Codex、Claude Code 的人,也并没有因为 DeepSeek V4 更便宜就替换掉 GPT-5.5 或者 Claude 4.6/4.7。
图片来源:YouTube甚至很多开发者现在讨论 AI 时,已经不太提 GPT-5.5、Claude 4.6 或 DeepSeek V4 这些模型名字了,更多人张口闭口聊的是 Codex、Claude Code、OpenClaw、OpenCode、Hermes 等 Agent 框架。
事实上在过去一年,AI 行业的竞争重点,已经从模型本身的能力逐渐转向 AI 实际的产出价值。在这件事上,DeepSeek V4 还缺少一个属于自己的 Codex。
DeepSeek V4 很好,但大家都不太看模型了
「我在 opencode 上试了同样的操作,deepseek v4 pro high 模式下速度慢得惊人,同样的任务在 codex 5.5 med 模式下只需 20 分钟,而在 v4 pro 上却要花 2 小时。」X 用户 Ayush Jaipuriar 最近谈到。
图片来源:X需要先说明,DeepSeek V4 当然是一个强模型。包括代码能力、推理能力、长上下文、多轮理解,V4 相比去年 V3 都有明显提升,尤其是在中文场景、复杂逻辑推理以及长上下文等方面。与此同时,在国内外一众大模型的涨价潮中,V4 也是少数降价的大模型。
但问题在于,2026 年的大模型行业,各种基准测试的成绩越来越不能说明实际工作中 AI 的表现。去年每次新模型发布,社交媒体第一时间讨论的还是在 MMLU 上超过谁、在 SWE-Bench 上刷新纪录、在人类评测里又提升了多少等等。
不是说基准测试完全没价值,但开发者显然没那么在意了。原因并不复杂,大家已经见过太多「测试很强,但实际不好用」的模型,很多 benchmark 更像考试,而真实工作环境远比考试复杂,实际的干活表现很多时候也比价格优势更重要。
半导体和 AI 分析机构 SemiAnalysis 最近还做了一次横向测试,覆盖 GPT-5.5、Opus 4.7 和 DeepSeek V4,指出 DeepSeek V4 是目前成本最低的顶尖闭源模型替代方案,但其能力尚未达到领先水平。
更何况,Token 成本的计算方式也不合理,更合理的其实是做好一个任务的成本。开发者、前媒体人王博源在 X 上就提到,用次顶级国产模型搞了半天都没搞定的一个问题,用 Codex 一次就解决了。开发者、墨问西东创始人池建强也遇到 Claude Code 两次解决不了,Codex 却能一次搞定。
图片来源:X显而易见的是,实际的模型成本就不能简单对比「官方 Token 定价」,先不说结果,实际使用的 Token 量就不一致。而且 GPT-5.5 这次很重要的一点升级就是「效率」,能用更少的 Token 完成同样的任务。
所以即便有一些方法可以在 Claude Code、Codex 上使用如 DeepSeek V4 等第三方模型,考虑到稳定性、效果、时间等因素,绝大部分人都还是采用官方的默认模型,Claude Code 是 Claude 4.x,Codex 是 GPT-5.x。
尤其是在 Coding 场景,开发者真正每天面对的问题,是 AI 到底能不能参与完整的软件工程流程。比如能不能理解整个项目结构,能不能持续修改十几个文件,能不能自己调用 terminal,能不能自动修 bug,能不能在报错后继续尝试,能不能长时间保持上下文稳定。
这些东西,考验的不只是「模型能力」,更需要一套完整的 AI 工作系统。开发者 Vladimir 在使用了 1443 万 Token 的 DeepSeek V4 后表示,V4 的智能程度接近于 GPT-5.2/GPT-5.3,但最大的问题是经常忽略 agents 文件,实际使用中必须强制执行工具和 Harness 框架。
图片来源:XClaude Code、Codex 是真正完整的产品,但 DeepSeek V4 只是模型。SemiAnalysis 在测试报告中还强调:「真正完整的产品是运行框架 + 模型。缺了其中任一个,你就有所欠缺。」
过去一年,OpenClaw(龙虾)、Claude Code 和 Codex 这类 Agent 框架的存在感越来越强。很多开发者现在已经不会说「我在用 Claude 4.6」,而是直接说「我在用 Claude Code」。同样,很多人在讨论 Codex 而非 GPT-5.5。
DeepSeek 还差一个自己的 Codex
很多人现在回头看 ChatGPT 刚火的时候,会发现当时整个行业其实都在围绕「对话」做产品。无论是 OpenAI、Anthropic 还是国内厂商,本质上都是让模型更像人类聊天,重点是模型更聪明、更自然、更像真人。
但现在 AI 的重点,正在从「聊天」变成「工作」。这个变化看起来好像只是用途的变化,但背后连带整个行业竞争逻辑也变了。以前模型公司最重要的任务,是把模型训练得更聪明;现在越来越重要的问题,则是怎么让 AI 真正完成任务。
这也是为什么最近一年,行业里开始大量出现 Agent、Workflow、Context Engineering、Harness Engineering 这些词。本质上,它们都在解决同一个问题:怎么让 AI 真正进入生产流程。
所以现在很多开发者评价 AI Coding 或者 Agent 产品时,模型作为系统「引擎」当然重要,但直接决定 AI 实际价值的关键,更在于一套系统工程。比如上下文管理,比如工具调用,比如长期记忆,比如任务拆解,比如错误恢复,比如多 Agent 协同。实际工作中,这些能力很多时候甚至比模型本身的优势更重要。
图片来源:X这也是为什么越来越多人开始说,AI Coding 的竞争已经不只是 LLM 竞争,而是 AgentOS 竞争。
反过来看,也能在一定程度上理解 Claude Code、Codex 的成功。一方面是自家模型在能力上的领先,另一方面则是从底层模型到 Agent 框架的垂直整合,在真实工作环境中可以带来更稳定、高效的表现。尤其是长任务场景下,Claude Code 更像一个能持续自主代理工作的 AI 助手。
而 GPT-5.5 真正重要的地方,也不只是模型更强,还有背后 Codex 工作流越来越成熟。包括文件管理、工具调用、Agent 协同、任务拆解、上下文管理,这些能力的叠加,也让实际 AI 表现出的能力和价值有了质的变化。
OpenAI 前几天也官宣表示,GPT-5.5 发布一周的 API 收入增长速度超过以往任何版本的两倍多,而 Codex 在不到七天内收入翻倍。而且现在来看,这种优势已经从 AI Coding 溢出到了更多的 Agent 场景上。
关注 Anthropic、OpenAI 的朋友应该都能发现,这段时间两家公司都在将 Claude Code、Codex 扩展到更多场景下,包括连接更多第三方应用和平台。
图片来源:X不仅如此,Claude Code 更多承接了 Claude Cowork 的办公定位,最新推出了专为银行和其他金融服务企业量身定制的 AI Agent,Codex 也在强调更多研究、文书、会计等工作,而不仅限于 Coding。
回头再看 DeepSeek V4,虽然已经在模型层面追上了行业的前沿变化和领先阵营,但还差一个自己的 Codex。事实上,这种呼声已经不小了,还有人在 Github 上开源了基于 DeepSeek V4 开发的终端 Coding Agent——DeepSeek TUI,支持 Skill 以及大量 Agent 框架上的常见功能。
但这毕竟还是第三方开发者的作品,对于 DeepSeek V4 的理解很难比拟官方团队,不太可能充分发挥 V4 的垂直整合优势。最好的期待是,借由 DeepSeek TUI 的反馈和呼声,DeepSeek 官方能够下场打造自己的开源 Agent 框架,自己的 Codex。