产业出题，科技答题！具身智能走进真实世界_财经一览

产业出题，科技答题！具身智能走进真实世界

创始人

2026-07-04 06:53:33

0次

从24小时便利店的烤肠机

到街头导盲的机器狗

再到家庭场景中

洗碗擦桌的机器人

具身智能正在从实验室走向千行百业

周末的写字楼里，24小时便利店的柜台后，一台机器人正在值守。观察、下夹爪、放到盘子里——夹烤肠的动作一气呵成。上岗一年，它已经是个熟练的店员了。

看似简单，实则是一道来自零售业的典型考题。银河通用高级副总裁曾辉介绍，商超30%的需求可能都来自早点这类非标准商品，不同门店的光照和环境背景差异很大，对机器人的识别和适应能力要求极高。如何让一个通用基座大模型在不同场景下实现泛化部署，是具身智能大模型面临的核心挑战。

所谓通用基座大模型，就是一个可以用在各种形态机器人上的“智慧大脑”。它不仅能自主判断、决策，还会通过学习掌握“举一反三”的能力。

星海图首席科学家、清华大学研究员赵行和团队基于视觉、语言和动作三个元素开发了通用基座大模型。在演示中，机器人能够识别桌面上的苹果和橙子，进行任务拆解和规划，然后执行。但真实的家庭场景远比桌面复杂，能否让机器人像人一样处理琐碎的家务，是家政服务机器人落地的关键门槛。

赵行判断，具身智能的终局是“一脑多形”，一个基础模型能够控制各种形态的身体。当训练数据达到百万小时级别，就可以进行更大规模的具身智能原生模型训练。

数据从何而来？在北京市石景山区的人形机器人数据训练中心，工作人员正“手把手”指导机器人做家务——刷碗、擦桌面，将日常动作转化为机器可理解的智能经验。抓软硬不同的物品，手感完全不同。每个关节的细微运动、指腹施力的大小与变化，都被高精度传感器实时捕捉。一个垂类场景需要上百甚至上千小时的数据，每天数据产出约7TB到8TB。这些蕴含“手感”的数据，正是训练具身智能不可或缺的宝贵资源。

经过训练的模型从训练中心“毕业”后，面临共同难题：照顾老人、小孩，帮助残障人士时，能否百分之百安全可靠？

在街头测试中，一款导盲机器狗完成了300米真实道路测试。面对复杂城市场景，它全程无人干预，仅凭自身感知与决策，安全准确地抵达了目的地。但高德具身算法负责人徐牧表示，能够做到始终保障人的安全、对齐人类的法规，是最难的地方。

机器狗不能在导盲过程中试错。研发人员想了个办法——搭建一个与真实世界完全一样的虚拟世界。虚拟机器狗在环境中“撞墙”会得到负向反馈，走得顺利则获得正向反馈，通过强化学习不断提升能力。

但传统训练环境搭建成本高，需要飞机拍摄和激光扫描。北京大学陈宝权教授团队提供了新思路——通过神经网络技术，用相机扫描整个房间，即可实时生成三维场景。机器人可以在生成的数字世界里进行训练。

在此基础上，徐牧的团队搭建了一个“数字地球”——通过单张卫星图或少量街景图片，直接生成高精度城市数字模型。机器狗虽然没有走出去，但它已经见过了全世界所有的场景。

当我们在观察机器人时，机器人也在通过传感器、摄像头和算法学习物理世界的逻辑。赵行认为，具身智能的发展分为三个阶段：第一阶段控制自身身体，第二阶段在特定场景产生作业价值，第三阶段实现软硬件协同进化。

北京大学陈宝权教授指出，数据是最稀缺的资源。物理智能时代，互联网上的数据已不够用，建立三维数据资产正是当下最聚焦的方向。

具身智能正在从便利店走向街头，从实验室走向家庭场景。但关于未来产业，人们的疑问远不止这些。

小学生畅想，自动驾驶能靠眼珠子转就能开？飞机和船能不能自己开？6G和5G到底有什么区别？市民坦言，十年前也想不到移动互联网对生活的改变这么大。

清华大学研究员赵行认为，未来产业会让专业服务变得像水、电和网络一样唾手可得。

高校学生：氢能车到底能不能普及？

天津大学化工学院教授康鹏回应：预计2030到2035年间，绿氢价格有望降至每公斤10到15元。清华大学高等研究院教授翟荟指出，量子科技并不遥远，手机、电脑、导航、医疗成像、太阳能电池，都是量子力学的应用。

市民想象：一个人带多个智能体，让它们互相开会。

清华大学研究员赵行回应：百科全书植入大脑，可能5到10年内实现。

中国国际经济交流中心能源与绿色低碳发展研究部部长景春梅说，氢氧导入设备、医疗设备可与老百姓生活更紧密结合。

三个问题，三种期待，大家都在用自己的方式追问未来产业的模样。而所有这些问题，最终都指向同一个方向：世界不断变化，产业仍在出题，科技正在解答。

上一篇：亚洲区全军覆没，13个乌龙球创纪录

下一篇：一杯清茶见惠企初心

产业出题，科技答题！具身智能走进真实世界

相关内容

热门资讯