大模型的进化方向：Words to Worlds | 对话商汤林达华_财经一览

大模型的进化方向：Words to Worlds | 对话商汤林达华

创始人

2025-12-18 00:04:19

0次

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：量子位）

李飞飞团队最新的空间智能模型Cambrian-S，首次被一个国产开源AI超越了。

从这张展示空间感知能力的雷达图中，一个名为SenseNova-SI的模型，它在多个维度上的能力评分均已将Cambrian-S给包围。

而且从具体的数据来看，不论是开源或闭源，不论是2B或8B大小，SenseNova-SI在各大空间智能基准测试中都拿下了SOTA的成绩：

而这个SenseNova-SI背后的操刀者，正是商汤科技。

在量子位与商汤科技联合创始人、首席科学家林达华深入交流过程中，他并没有掩饰对这一进展的肯定：

但与此同时，林达华也是随即话锋一转，表示他并不愿意把这个故事简单地讲成“赢了李飞飞”或者“赢了OpenAI”。

更深层的，林达华更像是在释放一种信号，一个关于AI技术范式正在发生剧烈震荡的信号——

单纯依赖参数规模的AI范式逐渐面临瓶颈。我们站在了新的十字路口。

因为在Scaling Law的边际效应开始递减、很多人还在内卷大语言模型时，林达华和他的团队选择的却是一条很少有人走的路：Back to research（回归实验室）。

具体而言，是从最底层开始死磕原生多模态和空间智能，以此来完成一场从Words（语言）到Worlds（世界）的迁徙。

而在林达华看来，在这场迁徙中，中国科技公司已经抢到了一张船票。

回望过去三年，从2022年11月ChatGPT横空出世，到GPT-4的震撼登场，AI行业经历了一场狂飙式的野蛮生长。

那是一个把Scaling Law奉为圭臬的时代，只要算力足够大、GPU足够多、数据堆得足够高，模型的能力似乎就能无限增长。

但到了2024年下半年，风向变了。

人们发现，虽然榜单上的分数还在涨，从GPT-4到GPT-5.2，再到Gemini的各种升级版，分数的跃迁越来越快，但带给人们的惊艳感却在边际递减。

林达华一针见血地指出：

与此同时，OpenAI前首席科学家Ilya Sutskever的一声疾呼“Back to Research”，在硅谷和全球AI圈里引发了不小的震动。

这与林达华的思考不谋而合：

为何会如此？简单来说，因为纯语言模型的红利快吃完了。

目前的顶尖大模型，在数学、编程上已经接近奥赛金牌水平，但在理解物理世界、处理三维空间关系上，可能连一个几岁的小朋友都不如。

未来的AGI，绝不会只是一个陪你聊天的Chatbot，也不应仅仅活在文本的逻辑里。它必须是一个能够理解物理世界、具有多感官能力的世界模型。

林达华强调说：

在这个新旧交替的时间节点，商汤选择不再盲目跟随大语言模型的参数竞赛，而是掉转船头，向着原生多模态这快更难啃的方向进发。

现在的多模态大模型，大多都是有局限性的。

对于这个观点，林达华给出了一个非常直观且略带幽默的案例。

哪怕是强如Grok或者GPT-4的早期版本，当你丢给它一张人手的照片，问它有几根手指时，它经常会自信地回答“5根”。

哪怕图片里的人手因为角度或畸变显示出6根或4根，AI的答案依旧是如此。

再比如，给模型看一张简单的三维积木图，问它“从上往下看是什么样子”，大多数模型都会选错。

它们明明看到了图片，为什么还会胡说八道呢？

因为它并没有真正在看。

林达华打了一个极其生动的比方：

在传统的多模态架构（拼接式架构）中，通常是一个视觉编码器（Vision Encoder）加上一个大语言模型。

视觉编码器把图片翻译成语言模型能听懂的Token，然后扔给大语言模型去推理。

在这个过程中，大语言模型依然是那个“闭眼学习了十年”的大脑。它看到“手”这个图像Token，大脑里立刻调出的先验知识是“手有5根手指”，会直接覆盖掉眼睛看到的真实像素细节。

林达华分析道：

这种拼接式的路线，虽然能快速出成果，但缺陷是致命的：

视觉信号在进入大脑的那一刻，就被降维、被阉割了。大量的空间细节、三维结构、物理规律，在转化为语言Token的过程中流失殆尽。

这就是为什么现在的模型数学能拿金牌，却连手指都数不清、连积木都搭不明白的原因了。

要解决这个问题，修修补补似乎已经是无济于事。必须从底层架构上进行一场彻底的革新。

这场革新的产物，就是商汤刚刚开源的NEO架构，以及基于此架构的SenseNova-SI模型。

在深入了解这个架构之前，我们需要先理解什么是原生多模态。

林达华的解释是这样的：

这听起来很抽象，但在技术实现上却极其硬核。

在NEO架构中，视觉Token和文本Token不再是“先后进入”或“翻译关系”，而是“一块进入模型的每一层。

商汤设计了专门的混合注意力机制（Mixed Attention），让模型在进行每一次推理计算时，既能参考文本的上下文，又能实时“回头看”图像的原始特征。

为了让模型真正理解空间，林达华团队还干了一件反直觉的事——

他们不再只用预测下一个词（Next Token Prediction）来训练模型，而是引入了跨视角预测。

简单来说，就是给模型看一个物体的正面，让它去预测这个物体侧面、背面长什么样。

林达华表示：

这种原生架构带来的效果是惊人的——

数据效率提升了10倍。

例如SenseNova-SI仅用了同类模型10%的训练数据，就达到了SOTA水平。而且，它不再是靠死记硬背，而是真正理解了三维空间关系。

正如我们前文提到的对比评测中，SenseNova-SI不仅超越了李飞飞团队的Cambrian-S，更是在空间推理、幻觉抑制等关键指标上表现更优。

林达华总结道：

技术再牛，如果不能变成生产力，终究只是实验室里的玩具。

在量子位与林达华的交流过程中，他反复提到了一个词：工业红线。

这是因为大模型行业目前最大的痛点，除了不够聪明，就是太贵、太慢。

特别是在视频生成领域，虽然Sora惊艳了世界，但生成几秒钟视频需要消耗巨大的算力，推理时间动辄几分钟甚至几小时。

这种成本和延迟，根本无法支撑大规模的商业应用。

“只有当推理成本以每年1-2个数量级的速度下降时，AI才能从Demo级的炫技，变成石油级的工业生产力。”

为了跨过这条红线，商汤在落地应用上下足了功夫。林达华以商汤最新实时语音驱动数字人产品SekoTalk为例，展示了什么叫算法和系统协同的极致优化。

目前的视频生成主流模型都是基于扩散模型，生成一张图往往需要迭代几十步甚至上百步。

但这个过程的步骤就不能减少吗？答案是否定的。

林达华团队利用一种名为算法蒸馏的技术，硬生生将扩散模型的推理步数，从100步压缩到了4步。

这不是简单的偷工减料，而是基于对模型分布的深刻理解。林达华解释说：

如此打法之下，效果依旧是惊人：64倍的速度提升。

这就意味着在不久的将来，你只需要一张消费级的显卡（比如RTX 4090甚至更低），就能实时生成高质量的数字人视频。

△SekoTalk生成的视频

聊至此处，林达华也表现出了激动之情：

从SenseNova-SI的底层架构创新，到SekoTalk的极致落地优化，商汤正在践行林达华所说的双轮驱动：

一手抓Back to Research的原始创新，一手抓击穿工业红线的落地价值。

在对话的最后，林达华也为当下想要投身AI大浪潮中的年轻人给予了一些宝贵的建议：

林达华诚恳地表示，年轻一代的研究者和创业者，应该把视野打开。

林达华最后说道，在这场从Words to Worlds的宏大迁徙中，中国拥有全世界最丰富的场景、最完整的工业体系。这片土壤，天生适合培育那些能与物理世界深度交互的AI。

在这个赛道上，中国科技公司已经抢到了一张船票；而未来的头等舱，属于那些敢于回归实验室、敢于勇闯无人区的年轻人。

SenseNova-SI地址：

https://github.com/OpenSenseNova/SenseNova-SI

NEO地址：

https://github.com/EvolvingLMMs-Lab/NEO

上一篇：亚玛顿(002623.SZ)：公司现已具备ITO玻璃量产能力

下一篇：“割爱”痛风创新药一品红遇转型阵痛

大模型的进化方向：Words to Worlds | 对话商汤林达华

相关内容

热门资讯