中经记者 曲忠芳 苏州报道
“Optimus(特斯拉旗下的人形机器人)什么时候能超越人类最好的外科医生?答案是三年内,而且是规模化地超越。”这是特斯拉CEO埃隆·马斯克于2026年1月初在公开访谈中做出的乐观预测与判断。
然而1月24日,在第三届全国人工智能应用场景创新挑战赛总决赛暨全国人工智能+应用场景创新大会上,南方科技大学电子与电气工程系主任、讲席教授、加拿大工程院院士孟庆虎对于马斯克的断言提出了不同的看法。孟庆虎表示:“这个‘大饼’一定‘烙不熟’,三五年内不可能。”
之所以作出这样的否定回答,孟庆虎认为,数据的掣肘导致无法构建特别优秀的“外科专家”AI Agent,同时机器人的硬件水平——尤其是精准度与灵巧手及其反应,和人类相比还有很大差距。
“大模型只是大语言模型”
人形机器人的火热持续至今,《中国经营报》记者注意到,在大众认知范畴内,常常存在一个误区与疑问,那就是:以ChatGPT、DeepSeek、Gemini、千问等为代表的大模型性能已非常优秀,为什么大模型加持下的机器人依然表现得很笨拙,很多复杂的肢体动作还依赖遥控器操作?
对此,孟庆虎厘清了一个概念认知的误区,即“大模型”——现在使用体验表现较好的大模型实际仅仅是“大语言模型”。孟庆虎以图像处理中的一张经典黑白图片为测试样本,测试了不同版本的主流大模型的认知与理解能力,得出结论称,大模型在文本生成能力方面已实现了突破,但在图像处理方面还远远不足,“幻觉”现象更突出,这是学术界、产业界在“世界模型”“三维空间模型”“物理世界模型”等方面持续投入研发的原因。
与人类的认知记忆以三维世界为“基础模型”不同,现在人工智能模型更多的仍是二维的基础模型,这决定了大模型并不是像大众所预期的那样“无所不能”,它只是处理文本信息比较在行。孟庆虎提醒道:“当我们使用AI工具时,在知其利的同时要知其弊,才能用得好。”
用“场景智能”替代“通用智能”
谈及当下火热的人形机器人,孟庆虎指出,现在机器人缺乏两个最重要的因素,一是自主行为,二是交互性。近一年来,有目共睹的是,人形机器人在动作控制方面取得了明显的进步——能跑半马、走猫步、翻跟头、打太极等,而这些大多仍是“预制程序”,且可能失败上百乃至上千次,有一次成功才能展示给公众看,这些并不能代表机器人的综合能力,具身智能的发展仍有很大的局限性。
在孟庆虎看来,人工智能要想落地就是要实现“场景智能”。要解决一个场景应用,通过极小的算力、极简的算法和有限的数据往往就能做得非常好。以无线胶囊机器人为例,患者从口腔吃下去,它能够把从口腔到消化系统这一路中的各种异常问题找出来,算法算力可控,数据仅使用消化道系统的数据集,在资源较少的情况下能够在这个应用场景中比较高效地完成任务。
“对于通用人工智能(AGI),在我看来,当我们把所有场景都变得智能化,就相当于把机器变成了一个人类的普通大脑,实现高维度的进度,这自然就会形成AGI。”孟庆虎说,通用模型当前面临着高质量有效数据不足的制约,在数据补齐之前,训练出来的AI模型仍是一个低维度的模型,即使称呼它为“通用模型”,但它一点都不通用。因此,应当用“场景智能”替代“通用模型”,前者是可以马上落地解决具体问题的。
针对马斯克关于机器人三年能做外科手术的论断,孟庆虎给予了否定的看法。孟庆虎认为,受模型性能、数据量、硬件能力等多方面影响,机器人实现成功做手术的能力可能还需要五年甚至十年的时间,未来很可能是由仿人形机器人再加上医生专家的AI Agent来共同完成手术。
(编辑:张靖超 审核:李正豪 校对:颜京宁)