具身智能测评“上海卷”宣布开源，100道题补齐国内行业短板_财经一览

具身智能测评“上海卷”宣布开源，100道题补齐国内行业短板

创始人

2026-01-27 06:27:51

0次

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：上观新闻）

记者今日（26日）获悉，上海交通大学联合业界研发的具身智能测评集GM-100宣布开源，旨在为衡量机器人“大脑”（智能模型）与“身体”（物理执行）的协同能力，提供一个更系统、开放且可复现的评估基准。后续，国内多个具身智能大模型将引入该测评集进行“跑分”测试。

当前，具身智能技术路线尚处百家争鸣期，数据集建设缺乏统一标准。GM-100测评集相当于给具身智能出了一套上海版“统考卷”，为国内具身智能评价体系补齐短板。

不盲目追求任务量

据悉，GM-100测评集包含了100个具体任务，总计1.3万条操作轨迹数据，规模可观。项目牵头人、上海交通大学副教授李永露认为，在当前研究阶段，高质量的数据集和评测体系对科研的贡献至关重要，优化数据分布能有效推动模型能力进步。因此，与其单纯追求任务的数据量，该测评集更强调任务设计的广度与评估体系的深度。

记者从研究团队了解到，GM-100测评集在设计任务时，首先分析人类与物体交互的基本原语（不可分割的指令），再利用大语言模型生成大量候选任务，再经专家筛选优化，最终形成涵盖从日常简单操作到罕见复杂场景的100项任务。

此外，该测评集在传统的任务成功率之外，引入了两项关键指标。一是部分成功率，用于量化多步骤任务中，子步骤的完成情况，避免“非全即无”的粗暴判断；二是动作预测误差，即衡量模型在面对新情况时动作模仿的精度。

研发团队对全球主流模型测试结果显示，GM-100测评集的任务设计难度合理，在不同机器人平台上均可执行且具备区分度，评估结果在不同硬件间也表现出稳定的泛化性，为跨平台模型能力比较提供了可靠参考。

目前，测评集所有100个任务的详细说明、所需物料清单均已开源，还为每个任务上传了约130条真实机器人操作轨迹数据。“我们甚至公布了具体物料的购买链接，尽可能降低开发者的复现与参与门槛，让更多人能在同一基准上开展测试。”研究团队负责人告诉记者。

补齐评价体系短板

当前，具身智能领域评测标准分散且不统一，各团队自建标准，抓取、路径规划等侧重点也各不相同，且多局限于高频简单场景。随着技术进步，旧有基准的区分度下降，难以反映复杂环境下的核心挑战，行业缺乏公认的客观参照。

智元机器人正在展示。

“现有具身智能模型结构的泛化能力已显不足，需进行结构性创新，在数据层面，大规模、高质量数据的采集与评估仍是行业瓶颈。”宇树董事长王兴兴在外滩大会、进博会等多个场合公开表示，当前具身智能的制约因素主要是模型架构和数据质量。

为此，上海正努力通过具身数据和模型能力双维度，找到具身智能行业的破局之道。

在数据方面，智元机器人率先建成全球首个数采超级工厂，还开源了包含百万条真机数据的AgiBot World数据集。智元具身业务部总裁姚卯青表示，该数据集提供了工业级高质量数据支撑，包含百万条机器人数轨迹，每条数据都经过多轮审核，确保场景贴近现实、任务复杂多样。

此外，国地中心和浦江实验室联合团队计划完成2500万组整机数据积累，数据规模达到谷歌同类数据集的10倍。1月24日，上海库帕思科技与它石智航宣布共建“具身数据星火计划”，推动实现亿小时级别的数据流通规模。

在模型方面，2025年3月，智元发布全球首个通用具身基座大模型智元GO-1，融合多模态大模型（VLM）与混合专家系统（MoE），支持不同本体平台数据采集和部署。上海具识智能还自主研发了全国首个具身智能操作系统InsightOS，在智能制造产线部署、智慧农业作业等产业场景得到应用。

在此基础上，GM-100测评集的出现，则为上海乃至国内的具身智能评价体系补齐了短板。

“我们的目标并非建立一个绝对公平的物理测试环境，而是打造一个开放、透明、可复现的评测平台。”该负责人表示，通过提供标准化的“考题”（任务）、详细的“考试说明”（开源资料）和灵活的“阅卷标准”（多维指标），努力成为一张具身智能模型的“统考卷”，不仅有助于横向比较模型性能，更通过题目设置定义行业的核心能力与前沿问题。

原标题：《具身智能测评“上海卷”宣布开源，100道题补齐国内行业短板》

栏目主编：李晔

本文作者：解放日报查睿

题图来源：上观题图

上一篇：让古都红色底蕴更加亮眼！委员建言三大红色文化主题片区建设

下一篇：文汇收藏文章方法指南

具身智能测评“上海卷”宣布开源，100道题补齐国内行业短板

相关内容

热门资讯