从24小时便利店的烤肠机
到街头导盲的机器狗
再到家庭场景中
洗碗擦桌的机器人
具身智能正在从实验室走向千行百业
周末的写字楼里,24小时便利店的柜台后,一台机器人正在值守。观察、下夹爪、放到盘子里——夹烤肠的动作一气呵成。上岗一年,它已经是个熟练的店员了。
看似简单,实则是一道来自零售业的典型考题。银河通用高级副总裁曾辉介绍,商超30%的需求可能都来自早点这类非标准商品,不同门店的光照和环境背景差异很大,对机器人的识别和适应能力要求极高。如何让一个通用基座大模型在不同场景下实现泛化部署,是具身智能大模型面临的核心挑战。
所谓通用基座大模型,就是一个可以用在各种形态机器人上的“智慧大脑”。它不仅能自主判断、决策,还会通过学习掌握“举一反三”的能力。
星海图首席科学家、清华大学研究员赵行和团队基于视觉、语言和动作三个元素开发了通用基座大模型。在演示中,机器人能够识别桌面上的苹果和橙子,进行任务拆解和规划,然后执行。但真实的家庭场景远比桌面复杂,能否让机器人像人一样处理琐碎的家务,是家政服务机器人落地的关键门槛。
赵行判断,具身智能的终局是“一脑多形”,一个基础模型能够控制各种形态的身体。当训练数据达到百万小时级别,就可以进行更大规模的具身智能原生模型训练。
数据从何而来?在北京市石景山区的人形机器人数据训练中心,工作人员正“手把手”指导机器人做家务——刷碗、擦桌面,将日常动作转化为机器可理解的智能经验。抓软硬不同的物品,手感完全不同。每个关节的细微运动、指腹施力的大小与变化,都被高精度传感器实时捕捉。一个垂类场景需要上百甚至上千小时的数据,每天数据产出约7TB到8TB。这些蕴含“手感”的数据,正是训练具身智能不可或缺的宝贵资源。
经过训练的模型从训练中心“毕业”后,面临共同难题:照顾老人、小孩,帮助残障人士时,能否百分之百安全可靠?
在街头测试中,一款导盲机器狗完成了300米真实道路测试。面对复杂城市场景,它全程无人干预,仅凭自身感知与决策,安全准确地抵达了目的地。但高德具身算法负责人徐牧表示,能够做到始终保障人的安全、对齐人类的法规,是最难的地方。
机器狗不能在导盲过程中试错。研发人员想了个办法——搭建一个与真实世界完全一样的虚拟世界。虚拟机器狗在环境中“撞墙”会得到负向反馈,走得顺利则获得正向反馈,通过强化学习不断提升能力。
但传统训练环境搭建成本高,需要飞机拍摄和激光扫描。北京大学陈宝权教授团队提供了新思路——通过神经网络技术,用相机扫描整个房间,即可实时生成三维场景。机器人可以在生成的数字世界里进行训练。
在此基础上,徐牧的团队搭建了一个“数字地球”——通过单张卫星图或少量街景图片,直接生成高精度城市数字模型。机器狗虽然没有走出去,但它已经见过了全世界所有的场景。
当我们在观察机器人时,机器人也在通过传感器、摄像头和算法学习物理世界的逻辑。赵行认为,具身智能的发展分为三个阶段:第一阶段控制自身身体,第二阶段在特定场景产生作业价值,第三阶段实现软硬件协同进化。
北京大学陈宝权教授指出,数据是最稀缺的资源。物理智能时代,互联网上的数据已不够用,建立三维数据资产正是当下最聚焦的方向。
具身智能正在从便利店走向街头,从实验室走向家庭场景。但关于未来产业,人们的疑问远不止这些。
小学生畅想,自动驾驶能靠眼珠子转就能开?飞机和船能不能自己开?6G和5G到底有什么区别?市民坦言,十年前也想不到移动互联网对生活的改变这么大。
清华大学研究员赵行认为,未来产业会让专业服务变得像水、电和网络一样唾手可得。
高校学生:氢能车到底能不能普及?
天津大学化工学院教授康鹏回应:预计2030到2035年间,绿氢价格有望降至每公斤10到15元。清华大学高等研究院教授翟荟指出,量子科技并不遥远,手机、电脑、导航、医疗成像、太阳能电池,都是量子力学的应用。
市民想象:一个人带多个智能体,让它们互相开会。
清华大学研究员赵行回应:百科全书植入大脑,可能5到10年内实现。
中国国际经济交流中心能源与绿色低碳发展研究部部长景春梅说,氢氧导入设备、医疗设备可与老百姓生活更紧密结合。
三个问题,三种期待,大家都在用自己的方式追问未来产业的模样。而所有这些问题,最终都指向同一个方向:世界不断变化,产业仍在出题,科技正在解答。
下一篇:一杯清茶见惠企初心