► 文 观察者网 吕栋
大模型“月更”时代已经到来,春晚舞台上机器人开始打醉拳、翻跟斗,OpenClaw更是在极短时间内引发“养虾狂欢”......AI似乎已不再是实验室里的代码游戏,而是一种正在渗透进日常生活的真实力量。
但细究之下,一个显著的悖论也逐渐浮出水面:大模型能在几秒钟内写出媲美莎士比亚的十四行诗,却无法感知世界的温度;能画出堪比梵高的星夜画作,却无法预判一杯水即将从桌边滑落。
数字世界的认知能力在飞涨,物理世界的感知能力却几乎空白。这道横亘在数字与物理之间的鸿沟,正在成为AI走向现实世界最难突破的天花板。
“AI正处在从被动执行到主动感知、理解的关键转折点。”vivo总裁、首席运营官、vivo中央研究院院长胡柏山在博鳌亚洲论坛2026年年会上指出,AI要从虚拟世界走进现实,必须建立自己的感知体系,才能“看见”物理世界,而vivo 认为,影像是感知的基础。
在行业争相追逐大模型参数的喧嚣中,vivo选择了一条看似慢,但更稳、更长远的路:为AI构建完整的感知体系。这不是保守,而是对AI落地物理世界的深层预判:算力会被同质化,感知才是下一代智能的分水岭。
手机,将从工具迈向感知枢纽
每一次技术革命,最终都是通过消费终端完成对大众生活的渗透。
个人电脑让普通人用上了计算能力,智能手机让移动互联网装进了数十亿人的口袋。即便在最新一轮以人工智能为核心的技术革命中,这个规律依然没有改变。
“没有哪个设备比手机离人更近,一天24小时在身边,随时随地,包括生态都和手机关联,周边设备、平板等。”胡柏山给出一个明确判断:手机,是AI落地的“第一现场”。这个判断背后有三个支撑点:最广泛的触达力、全天候的交互能力、全场景的覆盖能力。
相比之下,无论是AR眼镜、智能音箱,还是正在兴起的人形机器人,目前都难以在覆盖广度、使用频次和场景完整性上与手机匹敌。胡柏山认为:未来十年,智能手机依然会是人机交互的主导载体。那时,手机将不仅是通讯工具,它将成为物理世界的感知枢纽,更是每个人的数字大脑。
这个判断并非空穴来风。当下众多科技巨头虽然都在布局下一代终端,但迄今为止,没有任何一个设备能像手机一样,同时具备高普及率、高黏性和高完整度的生态能力。
vivo的务实在于:与其坐等某个“颠覆性终端”横空出世,不如先在既有终端上完成最扎实的AI落地。因为真正的变革往往不是轰轰烈烈的宣言,而是润物细无声的渗透。
这也解释了为什么vivo要在长达十年的时间里持续投入AI,它不是在做短期风口上的赌博,而是在围绕手机这一核心载体,持续构建从底层到应用落地的全链条能力。当行业还在争论“AI手机”如何定义时,vivo已逐步将AI能力沉淀为手机的日常体验。
感知,才是AI时代的护城河
如果说手机是AI落地的“第一现场”,那么什么才是AI真正理解物理世界的“第一能力”?
当前的大模型无疑是专家,也是大师。OpenAI的GPT系列、谷歌的Gemini、微软的Copilot,在语言理解、内容生成、逻辑推理上不断刷新上限。但胡柏山在演讲中提出了一个核心观点:没有感知能力,AI就像是困在黑屋子里的“大师”,算力再强,也看不见咫尺之外的世界。
这句话值得反复咀嚼。
算力层面的竞争,本质上是资本和工程能力的竞争。更大规模的参数、更多的训练数据、更先进的芯片,这些固然可以构筑短期的技术壁垒,但长期来看,算力一定会走向同质化。真正能让一个智能设备“懂你”的,是它对这个世界的感知能力。
而感知能力的关键,在于影像。
影像技术通过光学系统、成像处理、空间计算等全链路能力,完成了物理世界的数字化投射与三维场景重建。它是AI看懂物理世界、理解真实场景,进而感知情绪、预测行动的基础。
“在物理世界,没有影像,AI是失明的天才;没有AI,影像是沉默的记录。当两者相遇,天才有了眼睛,记录有了灵魂。”胡柏山认为,当前的大模型利用的是过去积累的数字资产,但这些资产并不能解决我们对当前物理世界认知的能力。
一个直观的对比是:当前的大模型能写出关于“猫”的百科式描述,却无法理解猫在沙发上跳跃的可能轨迹,无法预判它下一秒可能打翻水杯的关联,更无法感知它此刻慵懒的情绪。
原因很简单,AI没有“看见”。
这似乎也解释了为什么苹果要持续投入计算摄影和空间感知,为什么谷歌会在Gemini模型基础上,疯狂尝试“智能体视觉”,为什么微软和OpenAI正在探索将视觉能力作为下一代多模态模型的核心方向。因为他们可能也意识到了:AI下半场的决胜点,在于对物理世界的感知与理解。
而感知体系的建立,影像是最自然的入口。
胡柏山在演讲中分享的两个真实故事,让这个技术判断有了人性的温度。宝哥带着导盲犬阿尔法和一部vivo手机环游中国,“vivo看见”帮他记住了每个人的样子;诺子站在冰岛的冰河湖旁,手机里的AI为她描述湖面漂浮的冰块、拍照的游客和远处飞过的海鸟。
这是影像感知世界最美好的表达,也是为什么vivo要把影像拔高到决定AI未来的战略高度,因为只有看见世界,才能改变世界。
“影像+AI”,vivo将构建完整感知体系
战略判断之后,就是落地路径。
基于“影像+AI”的双核驱动,vivo正在构建一套完整的感知体系。胡柏山在演讲中明确了两个方向:重塑手机,和智及万物。
先看第一个方向:重塑手机。
下周一即将发布的vivo X300 Ultra和X300s,将搭载具备场景识别能力的影像Agent,根据对环境的理解,为用户推荐最佳构图与个性化功能,让人人都能一键出大片。这意味着拍照不再是被动的记录,而是主动的感知与辅助。
这还只是起点。未来vivo折叠旗舰X Fold系列将重点布局办公、出行Agent,开会时默默记录,出差时主动规划航班、天气、酒店;性能旗舰iQOO系列则聚焦游戏Agent,自动优化性能、录制高光时刻。
胡柏山判断,手机将从现在的Smart Phone进化为Agent Phone。它不再是被动等待指令的工具,而是一个能看见、能思考、能行动的“数字伙伴”。从vivo目前透露的AI Agent规划,我们可以看到vivo正在用AI放大手机的差异化体验,在未来,这些可以记住每一个用户个性化特征和习惯的Agent,会和留住记忆的影像一起,组成每个人专属的“数字DNA”。
“要把手机变成增量市场,手机整个体验必须要有很大的突破和变化才行。所以,从Smart phone变成Agent phone,就是要把存量市场变成增量市场,但是在增量市场里面我们还是要继续把影像、游戏作为长板。”胡柏山说道。
再看第二个方向:智及万物。
去年,vivo成立了机器人Lab。很多人好奇:一家手机厂商为什么要做机器人和混合现实头显?胡柏山的回答是:回归本原——视觉是所有智能设备最自然的第一感知方式。
vivo将资源投入到三个核心的HUB型产品:手机、头显、机器人,并以此为基础将“影像+AI”的能力普及万物。手机是感知源头,端侧记住每一个用户的个性化特征与习惯;MR头显是空间计算的训练场,通过vivo Vision构建空间感知,理解空间结构、几何关系;而家庭机器人作为智能的终极形态,将汇聚感知并作用于物理世界。
这种策略背后其实是一种务实的技术哲学。感知体系的构建不是一蹴而就的,它需要从最基础的场景开始,逐步积累能力、扩展边界。vivo的目标是,从手机到头显,从穿戴设备到家庭机器人,所有设备将共享同一个“视觉+大脑”,共同实现对物理世界的精准感知与交互。
这与亚马逊构建Alexa生态的逻辑有异曲同工之处,从一个核心场景(智能音箱)出发,逐步扩展到数十种设备形态,最终形成一个无处不在的智能服务体系。不同之处在于,vivo已在影像赛道握住了先机,而影像天然具有更强的感知属性和更丰富的场景延展性。
迈向“数字DNA”时代,人始终是主角
当影像的感知能力与AI大脑深度融合,并延展到手机、MR头显、机器人等“万物”之中,最终会为人类社会孕育出什么?
胡柏山给出一个极具想象力的答案:未来的人们,将拥有两个生命——一个物理生命,会老去;一个数字生命,可传承。影像留住记忆,AI懂你习惯——两者的融合,将写下属于每个人的“数字DNA”。
今天,我们手机里的照片和视频,承载了每个人一生中最真实的记忆;运行在设备里的AI Agent,在你的同意下,每天都在默默学习你的生活习惯、偏好、社交关系。当这两者交织融合,就形成了一份独一无二、带有你浓厚个人印记的数据资产。
而vivo也构建了自己的技术伦理和不可逾越的底线——以芯片级安全架构,守护用户隐私安全。这份最懂用户的“数字DNA”,完全属于用户,也只属于用户。“懂用户、知人心,但不越边界。”胡柏山说道。
站在2026年的路口,AI技术革命带来了无限的想象空间。但胡柏山在演讲的最后,将视角拉回到了最根本的原点:AI时代真正的主角,从来不是手机、眼镜、机器人,或其他任何形态的终端,而是生活里每一个鲜活的人。
去年在博鳌论坛,他曾说:“科技的高度,终须回归人的尺度。”今年,这句话变得前所未有的重要。当科技赋予AI“眼睛”,让AI与这个世界进行“对视”时,它看到的不应只是矩阵、空间,更应看到温度与情感,人性与情绪。
回到最初的问题:当AI被困在“黑屋子”里,谁将为它打开那扇窗?
vivo的答案是——影像。但影像不是目的,感知才是;感知不是终点,人始终是起点。在这场AI与物理世界的深情“对视”中,技术的终极使命不是替代人,而是理解人、陪伴人、成就人。