炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:上观新闻)
记者今日(26日)获悉,上海交通大学联合业界研发的具身智能测评集GM-100宣布开源,旨在为衡量机器人“大脑”(智能模型)与“身体”(物理执行)的协同能力,提供一个更系统、开放且可复现的评估基准。后续,国内多个具身智能大模型将引入该测评集进行“跑分”测试。
当前,具身智能技术路线尚处百家争鸣期,数据集建设缺乏统一标准。GM-100测评集相当于给具身智能出了一套上海版“统考卷”,为国内具身智能评价体系补齐短板。
不盲目追求任务量
据悉,GM-100测评集包含了100个具体任务,总计1.3万条操作轨迹数据,规模可观。项目牵头人、上海交通大学副教授李永露认为,在当前研究阶段,高质量的数据集和评测体系对科研的贡献至关重要,优化数据分布能有效推动模型能力进步。因此,与其单纯追求任务的数据量,该测评集更强调任务设计的广度与评估体系的深度。
记者从研究团队了解到,GM-100测评集在设计任务时,首先分析人类与物体交互的基本原语(不可分割的指令),再利用大语言模型生成大量候选任务,再经专家筛选优化,最终形成涵盖从日常简单操作到罕见复杂场景的100项任务。
此外,该测评集在传统的任务成功率之外,引入了两项关键指标。一是部分成功率,用于量化多步骤任务中,子步骤的完成情况,避免“非全即无”的粗暴判断;二是动作预测误差,即衡量模型在面对新情况时动作模仿的精度。
研发团队对全球主流模型测试结果显示,GM-100测评集的任务设计难度合理,在不同机器人平台上均可执行且具备区分度,评估结果在不同硬件间也表现出稳定的泛化性,为跨平台模型能力比较提供了可靠参考。
目前,测评集所有100个任务的详细说明、所需物料清单均已开源,还为每个任务上传了约130条真实机器人操作轨迹数据。“我们甚至公布了具体物料的购买链接,尽可能降低开发者的复现与参与门槛,让更多人能在同一基准上开展测试。”研究团队负责人告诉记者。
补齐评价体系短板
当前,具身智能领域评测标准分散且不统一,各团队自建标准,抓取、路径规划等侧重点也各不相同,且多局限于高频简单场景。随着技术进步,旧有基准的区分度下降,难以反映复杂环境下的核心挑战,行业缺乏公认的客观参照。
智元机器人正在展示。
“现有具身智能模型结构的泛化能力已显不足,需进行结构性创新,在数据层面,大规模、高质量数据的采集与评估仍是行业瓶颈。”宇树董事长王兴兴在外滩大会、进博会等多个场合公开表示,当前具身智能的制约因素主要是模型架构和数据质量。
为此,上海正努力通过具身数据和模型能力双维度,找到具身智能行业的破局之道。
在数据方面,智元机器人率先建成全球首个数采超级工厂,还开源了包含百万条真机数据的AgiBot World数据集。智元具身业务部总裁姚卯青表示,该数据集提供了工业级高质量数据支撑,包含百万条机器人数轨迹,每条数据都经过多轮审核,确保场景贴近现实、任务复杂多样。
此外,国地中心和浦江实验室联合团队计划完成2500万组整机数据积累,数据规模达到谷歌同类数据集的10倍。1月24日,上海库帕思科技与它石智航宣布共建“具身数据星火计划”,推动实现亿小时级别的数据流通规模。
在模型方面,2025年3月,智元发布全球首个通用具身基座大模型智元GO-1,融合多模态大模型(VLM)与混合专家系统(MoE),支持不同本体平台数据采集和部署。上海具识智能还自主研发了全国首个具身智能操作系统InsightOS,在智能制造产线部署、智慧农业作业等产业场景得到应用。
在此基础上,GM-100测评集的出现,则为上海乃至国内的具身智能评价体系补齐了短板。
“我们的目标并非建立一个绝对公平的物理测试环境,而是打造一个开放、透明、可复现的评测平台。”该负责人表示,通过提供标准化的“考题”(任务)、详细的“考试说明”(开源资料)和灵活的“阅卷标准”(多维指标),努力成为一张具身智能模型的“统考卷”,不仅有助于横向比较模型性能,更通过题目设置定义行业的核心能力与前沿问题。
原标题:《具身智能测评“上海卷”宣布开源,100道题补齐国内行业短板》
栏目主编:李晔
本文作者:解放日报 查睿
题图来源:上观题图