罗福莉首个小米成果!开源具身大模型
创始人
2025-11-22 15:30:23
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:量子位)

正式入职小米还不到10天,罗福莉的首篇论文,这就来了!

在这篇出自MiMo团队(主打空间智能)的研究中,罗福莉作为团队负责人担任核心作者,小米智驾团队首席科学家陈龙则作为项目负责人。

而这项研究最亮眼的地方,恰恰是具身智能与自动驾驶的跨界融合。

针对自驾与具身操作场景的知识迁移难题,MiMo团队提出并开源了全球首个打通这两大领域的跨具身(X - Embodied)基座模型——MiMo-Embodied

在实测效果上,MiMo-Embodied在自动驾驶与具身智能共计29个Benchmark上全部霸榜!

无论是开车的环境感知、规划,还是机器人的拿取、导航,主打一个我全都要。

具身与智驾,小米全都要!

如上所说,小米这次开源的MiMo-Embodied是业界首个开源的、成功融合了自动驾驶与具身智能(Embodied AI)两大领域的统一多模态基础模型。

它基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链(CoT)和强化学习(RL)的渐进式四阶段训练策略,有效打破了室内操作与户外驾驶之间的领域鸿沟。

最终,该模型在任务规划、空间理解、环境感知及驾驶规划等29个基准测试中,均超越了现有的专用模型及通用模型,实现了跨领域的最先进(SOTA)性能。

接下来,我们具体来看。

在以往具身/自驾的VLM领域中,往往存在以下问题:

一方面是缺乏统一的具身VLM(Unified Embodied VLM)

现有的视觉语言模型(VLMs)大多专注于单一领域(仅室内任务或仅户外驾驶),缺乏能够连接这两个领域的统一模型。限制了模型在动态环境中与物理世界有效交互的能力。

而这,也带来了领域差距与迁移困难

具身智能侧重于室内操作,而自动驾驶侧重于户外道路,两者存在显著的领域差距(Domain Gap),阻碍了能力的跨领域迁移 。

另一方面则是评估体系缺失, 即缺乏全面的跨具身能力评估体系来衡量模型在两个领域的综合表现。

为了解决这些挑战,MiMo-Embodied试图将自动驾驶和具身智能的任务合并到一个统一的VLM中,以整合模型的跨具身能力。

如上图所示,MiMo-Embodied架构由以下三个部分组成:

由此,通过无缝集成视觉和文本领域,MiMo-Embodied增强了多样化多模态推理任务和应用的潜力。

接下来,为了实现跨领域的统一能力,论文提出了一套系统的数据构建和分阶段训练策略:

首先在数据方面,训练数据涵盖了通用多模态理解、具身 AI(功能性预测、规划、空间理解)和自动驾驶(感知、预测、规划)三个维度的多模态数据:

基于上述构建的数据集,研究又开发了一种四阶段训练策略

基于MiMo-VL,研究引入了具身智能和自动驾驶方面的专门监督,最终通过思维链微调和强化学习实现高级推理能力 。

这一策略有助于模型建立在先前获得的能力之上,从而在具身交互和自动驾驶领域实现稳健的性能。

阶段1:具身智能监督微调 (Embodied AI Supervised Fine-tuning):结合通用数据和具身数据,建立核心的视觉语言理解、具身推理能力。

阶段2:自动驾驶监督微调 (Autonomous Driving Supervised Fine-tuning): 在阶段1的基础上,加入大量自动驾驶数据。重点训练多视角空间推理、视频时间一致性和复杂交通场景分析 。

阶段3:思维链推理微调 (CoT Supervised Fine-tuning): 使用包含明确推理步骤的数据进行微调。这增强了模型处理复杂多步问题的能力,例如风险评估和行为合理性解释。

阶段4:强化学习微调 (RL Fine-Tuning): 使用 GRPO (Group Relative Policy Optimization) 算法。通过针对正确性(如选择题匹配、IoU计算)设计奖励信号,进一步优化模型的精确度和可靠性。

实验测试

为了验证MiMo-Embodied的性能,研究分别在定性和定量两层面进行评估,定量比较涉及针对具身智能和自动驾驶的各种既定学术和行业基准的客观评估,从而能够与领先模型进行直接的实证比较。

定性评估则展示了MiMo-Embodied在现实世界任务中的实际效能,突出了其在复杂机器人和自动驾驶场景中的部署,并提供了其将习得能力转化为有效性能的具体证据 。

基准测试上的定量比较

首先,在具身能力方面,研究在三个核心领域进行了全面评估:可供性预测、任务规划和空间理解。

结果表明,MiMo-Embodied 取得了具有竞争力的结果,与通用多模态模型和专用具身模型相比,在可供性预测和空间理解方面表现出特别的优势。

其次,在自动驾驶能力方面,研究在感知能力、预测能力和规划能力上进行了评估。包含在4种数据类型上的12个基准测试中的性能,涉及其理解复杂交通场景、预测动态道路智能体行为以及生成安全高效驾驶建议的能力。

实验结果显示,MiMo-Embodied在所有感知基准测试、预测、规划中均取得了强劲的性能,在全景语义理解任务中展示了最先进的结果,同时在具有挑战性的局部感知场景中也表现出卓越的鲁棒性。

现实世界任务的定性评估

首先,为了验证MiMo-Embodied 在复杂交互环境中的实际效用,研究评估了其在两个基本下游应用中的性能:具身导航和操作。

在具身导航中,相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0,MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和一致的性能。

在操作任务中,MiMo-Embodied同样展现出强大的可供性和空间推理能力。

在自动驾驶能力上,研究首先在NAVSIM上确定性能以进行标准化比较,然后在一个包含多样化真实世界驾驶场景的大规模专有数据集上测试模型的能力。

实验结果表明MiMo-Embodied可以处理多样化的自动驾驶情况并完成具有挑战性的任务,包括交叉路口转弯、弯道掉头、跟车和变道超车。

在每种情况下,模型都应感知道路上下文,整合自车状态和导航意图,并做出连贯的决策。

此外,MiMo-Embodied在所有评估类别中始终优于基线。值得注意的是,在转弯、绕开障碍物和变道等复杂、交互式操作中,性能提升最为显著。

在最后,论文表示还将基于MiMo-Embodied模型的能力,探索具身智能视觉-语言-动作(VLA)模型,以增强复杂环境中的交互,通过自然语言理解实现更直观的任务执行。

One more thing

这篇论文,是罗福莉于11月12日正式官宣加盟小米、出任MiMo团队负责人后,发布的第一篇论文。

作为业界备受关注的95后AI才女,她本科毕业于北京师范大学,硕士在北京大学继续深耕。

硕士毕业后,她加入阿里巴巴达摩院担任机器智能实验室研究员,主导开发多语言预训练模型VECO,并推动核心项目AliceMind的开源落地。

2022 年,罗福莉加入DeepSeek母公司幻方量化,后续任职DeepSeek深度学习研究员,深度参与 DeepSeek-V2等标杆模型的研发工作。

而本论文的Project Leader(项目负责人)陈龙,也于今年正式入职小米,担任智能驾驶首席科学家。

在此之前,陈龙曾任职于英国AI独角兽公司Wayve,主导新一代端到端自动驾驶VLA模型的研发。

更早前,他还以研究工程师身份加入Lyft,牵头车队学习项目,通过大规模众包车队数据完成自动驾驶车辆机器学习规划器的预训练。

论文链接: https://arxiv.org/abs/2511.16518

GitHub: https://github.com/XiaomiMiMo/MiMo-Embodied

Huggingface: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

相关内容

央企整合,大消息!涉17家...
国务院国资委网站消息,21日,国务院国资委组织召开中央企业专业化整...
2025-11-22 15:55:36
江西裕民银行设专职党委书记...
运营商财经网 张运迪/文近期,江西裕民银行完成了一轮关键的高层人...
2025-11-22 15:55:32
【2025打卡中国】瓷韵绽...
 11月21日,2025“打卡中国·潮涌东方——你好,河南!”网络...
2025-11-22 15:55:28
北京温榆河公园斩获“环境可...
转自:北京日报客户端又获奖了!这次是——北京温榆河公园。北京时间1...
2025-11-22 15:55:20
为什么我国军队现在还叫解放...
互联网上有网友提了一个问题:为什么我们的人民军队现在还是叫解放军?...
2025-11-22 15:55:15
伍倩雯:酒业赛道上的“她力...
转自:宜宾永乐古窖酒业股份有限公司2025-11-2211月19日...
2025-11-22 15:55:10
官宣免票!藏在浙西南的千年...
(来源:上观新闻)在浙江松阳这片被时光厚爱的土地上,每一座古建筑都...
2025-11-22 15:55:06
贵州试飞成功!
11月20日14时,贵州高原山区eVTOL(电动垂直起降航空器)跨...
2025-11-22 15:50:29
中国经济信心说丨“全运”收...
  太可爱了!第十五届全运会闭幕式上,一群装扮成澳门蛋挞的深圳小学...
2025-11-22 15:50:26

热门资讯

央企整合,大消息!涉17家单位 国务院国资委网站消息,21日,国务院国资委组织召开中央企业专业化整合推进会并举行重点项目签约仪式。8...
江西裕民银行设专职党委书记黄书... 运营商财经网 张运迪/文近期,江西裕民银行完成了一轮关键的高层人事调整:黄书川将出任该行党委书记,...
【2025打卡中国】瓷韵绽千年...  11月21日,2025“打卡中国·潮涌东方——你好,河南!”网络国际传播活动博主们走进洛阳牡丹瓷博...
北京温榆河公园斩获“环境可持续... 转自:北京日报客户端又获奖了!这次是——北京温榆河公园。北京时间11月21日晚七点,伊斯坦布尔时间下...
为什么我国军队现在还叫解放军?... 互联网上有网友提了一个问题:为什么我们的人民军队现在还是叫解放军?总台22日播出的《军情时间到》节目...
伍倩雯:酒业赛道上的“她力量”... 转自:宜宾永乐古窖酒业股份有限公司2025-11-2211月19日,在厦门举行的2025酒业创新与投...
官宣免票!藏在浙西南的千年瑰宝... (来源:上观新闻)在浙江松阳这片被时光厚爱的土地上,每一座古建筑都是一部沉静的历史书,承载着千年的记...
贵州试飞成功! 11月20日14时,贵州高原山区eVTOL(电动垂直起降航空器)跨城低空运输航线试飞启航仪式,在贵阳...
中国经济信心说丨“全运”收官 ...   太可爱了!第十五届全运会闭幕式上,一群装扮成澳门蛋挞的深圳小学生萌翻全场。这场被观众称赞“瞬间治...
中方致函联合国秘书长阐明立场有... 11月21日,中国常驻联合国代表傅聪致函联合国秘书长古特雷斯,就日本首相高市早苗涉华错误言行阐明中国...