具身智能测评“上海卷”宣布开源,100道题补齐国内行业短板
创始人
2026-01-27 06:27:51
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:上观新闻)

记者今日(26日)获悉,上海交通大学联合业界研发的具身智能测评集GM-100宣布开源,旨在为衡量机器人“大脑”(智能模型)与“身体”(物理执行)的协同能力,提供一个更系统、开放且可复现的评估基准。后续,国内多个具身智能大模型将引入该测评集进行“跑分”测试。

当前,具身智能技术路线尚处百家争鸣期,数据集建设缺乏统一标准。GM-100测评集相当于给具身智能出了一套上海版“统考卷”,为国内具身智能评价体系补齐短板。

不盲目追求任务量

据悉,GM-100测评集包含了100个具体任务,总计1.3万条操作轨迹数据,规模可观。项目牵头人、上海交通大学副教授李永露认为,在当前研究阶段,高质量的数据集和评测体系对科研的贡献至关重要,优化数据分布能有效推动模型能力进步。因此,与其单纯追求任务的数据量,该测评集更强调任务设计的广度与评估体系的深度。

记者从研究团队了解到,GM-100测评集在设计任务时,首先分析人类与物体交互的基本原语(不可分割的指令),再利用大语言模型生成大量候选任务,再经专家筛选优化,最终形成涵盖从日常简单操作到罕见复杂场景的100项任务。

此外,该测评集在传统的任务成功率之外,引入了两项关键指标。一是部分成功率,用于量化多步骤任务中,子步骤的完成情况,避免“非全即无”的粗暴判断;二是动作预测误差,即衡量模型在面对新情况时动作模仿的精度。

研发团队对全球主流模型测试结果显示,GM-100测评集的任务设计难度合理,在不同机器人平台上均可执行且具备区分度,评估结果在不同硬件间也表现出稳定的泛化性,为跨平台模型能力比较提供了可靠参考。

目前,测评集所有100个任务的详细说明、所需物料清单均已开源,还为每个任务上传了约130条真实机器人操作轨迹数据。“我们甚至公布了具体物料的购买链接,尽可能降低开发者的复现与参与门槛,让更多人能在同一基准上开展测试。”研究团队负责人告诉记者。

补齐评价体系短板

当前,具身智能领域评测标准分散且不统一,各团队自建标准,抓取、路径规划等侧重点也各不相同,且多局限于高频简单场景。随着技术进步,旧有基准的区分度下降,难以反映复杂环境下的核心挑战,行业缺乏公认的客观参照。

智元机器人正在展示。

“现有具身智能模型结构的泛化能力已显不足,需进行结构性创新,在数据层面,大规模、高质量数据的采集与评估仍是行业瓶颈。”宇树董事长王兴兴在外滩大会、进博会等多个场合公开表示,当前具身智能的制约因素主要是模型架构和数据质量。

为此,上海正努力通过具身数据和模型能力双维度,找到具身智能行业的破局之道。

在数据方面,智元机器人率先建成全球首个数采超级工厂,还开源了包含百万条真机数据的AgiBot World数据集。智元具身业务部总裁姚卯青表示,该数据集提供了工业级高质量数据支撑,包含百万条机器人数轨迹,每条数据都经过多轮审核,确保场景贴近现实、任务复杂多样。

此外,国地中心和浦江实验室联合团队计划完成2500万组整机数据积累,数据规模达到谷歌同类数据集的10倍。1月24日,上海库帕思科技与它石智航宣布共建“具身数据星火计划”,推动实现亿小时级别的数据流通规模。

在模型方面,2025年3月,智元发布全球首个通用具身基座大模型智元GO-1,融合多模态大模型(VLM)与混合专家系统(MoE),支持不同本体平台数据采集和部署。上海具识智能还自主研发了全国首个具身智能操作系统InsightOS,在智能制造产线部署、智慧农业作业等产业场景得到应用。

在此基础上,GM-100测评集的出现,则为上海乃至国内的具身智能评价体系补齐了短板。

“我们的目标并非建立一个绝对公平的物理测试环境,而是打造一个开放、透明、可复现的评测平台。”该负责人表示,通过提供标准化的“考题”(任务)、详细的“考试说明”(开源资料)和灵活的“阅卷标准”(多维指标),努力成为一张具身智能模型的“统考卷”,不仅有助于横向比较模型性能,更通过题目设置定义行业的核心能力与前沿问题。

原标题:《具身智能测评“上海卷”宣布开源,100道题补齐国内行业短板》

栏目主编:李晔

本文作者:解放日报 查睿

题图来源:上观题图

相关内容

美明尼阿波利斯市市长:部分...
经济观察网 据央视新闻客户端消息,当地时间1月26日,美国明尼苏达...
2026-01-27 07:48:42
A股股票回购一览:7家公司...
Wind数据显示,1月27日,7家公司共发布7个股票回购相关进展。...
2026-01-27 07:48:38
重庆国企考核巨变,战略使命...
在新一轮国企改革谋划的关键节点,重庆再次打出了一记响亮的“发令枪”...
2026-01-27 07:48:33
湖北省政协十三届四次会议开...
长江商报消息 王忠林到会祝贺并讲话李殿勋到会祝贺孙伟作常委会工作报...
2026-01-27 07:48:28
湖南黄金重组27亿资产增加...
长江商报消息 ●长江商报记者 徐佳湖南省属资源龙头湖南黄金(002...
2026-01-27 07:48:22
低轨卫星组网密集建设 芯片...
《科创板日报》1月27日讯(记者 陈俊清) 随着全球低轨卫星组网进...
2026-01-27 07:48:16
枣庄联通“三精三进”融宣讲
  党的二十届四中全会召开以来,山东枣庄联通紧密围绕“理响新征程”...
2026-01-27 07:48:12
奇趣科普 解码未来
(来源:嘉兴日报)转自:嘉兴日报  近日,秀洲区图书馆组织小小系列...
2026-01-27 07:48:04
元阳县工商联:赋能“梯田+...
(来源:中华工商时报)转自:中华工商时报    元阳县工商联引导民...
2026-01-27 07:47:58

热门资讯

美明尼阿波利斯市市长:部分联邦... 经济观察网 据央视新闻客户端消息,当地时间1月26日,美国明尼苏达州明尼阿波利斯市市长雅各布·弗雷表...
A股股票回购一览:7家公司披露... Wind数据显示,1月27日,7家公司共发布7个股票回购相关进展。其中,1家公司回购方案获股东大会通...
重庆国企考核巨变,战略使命评价... 在新一轮国企改革谋划的关键节点,重庆再次打出了一记响亮的“发令枪”。日前,重庆市国资委正式印发《关于...
湖北省政协十三届四次会议开幕 长江商报消息 王忠林到会祝贺并讲话李殿勋到会祝贺孙伟作常委会工作报告尔肯江·吐拉洪主持秦顺全作提案工...
湖南黄金重组27亿资产增加资源... 长江商报消息 ●长江商报记者 徐佳湖南省属资源龙头湖南黄金(002155.SZ)将获注关联资产。1月...
低轨卫星组网密集建设 芯片企业... 《科创板日报》1月27日讯(记者 陈俊清) 随着全球低轨卫星组网进入密集建设期,卫星通信产业链成为近...
枣庄联通“三精三进”融宣讲   党的二十届四中全会召开以来,山东枣庄联通紧密围绕“理响新征程”主题,创新构建以“精兵强将—精准发...
奇趣科普 解码未来 (来源:嘉兴日报)转自:嘉兴日报  近日,秀洲区图书馆组织小小系列文旅融合“光伏科技”之“奇趣科普 ...
元阳县工商联:赋能“梯田+”生... (来源:中华工商时报)转自:中华工商时报    元阳县工商联引导民营企业围绕世界文化遗产哈尼梯田,探...
2026年世界无线电日主题发布   本报讯(记者 帅又榕)据联合国教科文组织(UNESCO)官网近日消息,2026年世界无线电日主题...