罗福莉首个小米成果!开源具身大模型
创始人
2025-11-22 15:30:23
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:量子位)

正式入职小米还不到10天,罗福莉的首篇论文,这就来了!

在这篇出自MiMo团队(主打空间智能)的研究中,罗福莉作为团队负责人担任核心作者,小米智驾团队首席科学家陈龙则作为项目负责人。

而这项研究最亮眼的地方,恰恰是具身智能与自动驾驶的跨界融合。

针对自驾与具身操作场景的知识迁移难题,MiMo团队提出并开源了全球首个打通这两大领域的跨具身(X - Embodied)基座模型——MiMo-Embodied

在实测效果上,MiMo-Embodied在自动驾驶与具身智能共计29个Benchmark上全部霸榜!

无论是开车的环境感知、规划,还是机器人的拿取、导航,主打一个我全都要。

具身与智驾,小米全都要!

如上所说,小米这次开源的MiMo-Embodied是业界首个开源的、成功融合了自动驾驶与具身智能(Embodied AI)两大领域的统一多模态基础模型。

它基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链(CoT)和强化学习(RL)的渐进式四阶段训练策略,有效打破了室内操作与户外驾驶之间的领域鸿沟。

最终,该模型在任务规划、空间理解、环境感知及驾驶规划等29个基准测试中,均超越了现有的专用模型及通用模型,实现了跨领域的最先进(SOTA)性能。

接下来,我们具体来看。

在以往具身/自驾的VLM领域中,往往存在以下问题:

一方面是缺乏统一的具身VLM(Unified Embodied VLM)

现有的视觉语言模型(VLMs)大多专注于单一领域(仅室内任务或仅户外驾驶),缺乏能够连接这两个领域的统一模型。限制了模型在动态环境中与物理世界有效交互的能力。

而这,也带来了领域差距与迁移困难

具身智能侧重于室内操作,而自动驾驶侧重于户外道路,两者存在显著的领域差距(Domain Gap),阻碍了能力的跨领域迁移 。

另一方面则是评估体系缺失, 即缺乏全面的跨具身能力评估体系来衡量模型在两个领域的综合表现。

为了解决这些挑战,MiMo-Embodied试图将自动驾驶和具身智能的任务合并到一个统一的VLM中,以整合模型的跨具身能力。

如上图所示,MiMo-Embodied架构由以下三个部分组成:

由此,通过无缝集成视觉和文本领域,MiMo-Embodied增强了多样化多模态推理任务和应用的潜力。

接下来,为了实现跨领域的统一能力,论文提出了一套系统的数据构建和分阶段训练策略:

首先在数据方面,训练数据涵盖了通用多模态理解、具身 AI(功能性预测、规划、空间理解)和自动驾驶(感知、预测、规划)三个维度的多模态数据:

基于上述构建的数据集,研究又开发了一种四阶段训练策略

基于MiMo-VL,研究引入了具身智能和自动驾驶方面的专门监督,最终通过思维链微调和强化学习实现高级推理能力 。

这一策略有助于模型建立在先前获得的能力之上,从而在具身交互和自动驾驶领域实现稳健的性能。

阶段1:具身智能监督微调 (Embodied AI Supervised Fine-tuning):结合通用数据和具身数据,建立核心的视觉语言理解、具身推理能力。

阶段2:自动驾驶监督微调 (Autonomous Driving Supervised Fine-tuning): 在阶段1的基础上,加入大量自动驾驶数据。重点训练多视角空间推理、视频时间一致性和复杂交通场景分析 。

阶段3:思维链推理微调 (CoT Supervised Fine-tuning): 使用包含明确推理步骤的数据进行微调。这增强了模型处理复杂多步问题的能力,例如风险评估和行为合理性解释。

阶段4:强化学习微调 (RL Fine-Tuning): 使用 GRPO (Group Relative Policy Optimization) 算法。通过针对正确性(如选择题匹配、IoU计算)设计奖励信号,进一步优化模型的精确度和可靠性。

实验测试

为了验证MiMo-Embodied的性能,研究分别在定性和定量两层面进行评估,定量比较涉及针对具身智能和自动驾驶的各种既定学术和行业基准的客观评估,从而能够与领先模型进行直接的实证比较。

定性评估则展示了MiMo-Embodied在现实世界任务中的实际效能,突出了其在复杂机器人和自动驾驶场景中的部署,并提供了其将习得能力转化为有效性能的具体证据 。

基准测试上的定量比较

首先,在具身能力方面,研究在三个核心领域进行了全面评估:可供性预测、任务规划和空间理解。

结果表明,MiMo-Embodied 取得了具有竞争力的结果,与通用多模态模型和专用具身模型相比,在可供性预测和空间理解方面表现出特别的优势。

其次,在自动驾驶能力方面,研究在感知能力、预测能力和规划能力上进行了评估。包含在4种数据类型上的12个基准测试中的性能,涉及其理解复杂交通场景、预测动态道路智能体行为以及生成安全高效驾驶建议的能力。

实验结果显示,MiMo-Embodied在所有感知基准测试、预测、规划中均取得了强劲的性能,在全景语义理解任务中展示了最先进的结果,同时在具有挑战性的局部感知场景中也表现出卓越的鲁棒性。

现实世界任务的定性评估

首先,为了验证MiMo-Embodied 在复杂交互环境中的实际效用,研究评估了其在两个基本下游应用中的性能:具身导航和操作。

在具身导航中,相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0,MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和一致的性能。

在操作任务中,MiMo-Embodied同样展现出强大的可供性和空间推理能力。

在自动驾驶能力上,研究首先在NAVSIM上确定性能以进行标准化比较,然后在一个包含多样化真实世界驾驶场景的大规模专有数据集上测试模型的能力。

实验结果表明MiMo-Embodied可以处理多样化的自动驾驶情况并完成具有挑战性的任务,包括交叉路口转弯、弯道掉头、跟车和变道超车。

在每种情况下,模型都应感知道路上下文,整合自车状态和导航意图,并做出连贯的决策。

此外,MiMo-Embodied在所有评估类别中始终优于基线。值得注意的是,在转弯、绕开障碍物和变道等复杂、交互式操作中,性能提升最为显著。

在最后,论文表示还将基于MiMo-Embodied模型的能力,探索具身智能视觉-语言-动作(VLA)模型,以增强复杂环境中的交互,通过自然语言理解实现更直观的任务执行。

One more thing

这篇论文,是罗福莉于11月12日正式官宣加盟小米、出任MiMo团队负责人后,发布的第一篇论文。

作为业界备受关注的95后AI才女,她本科毕业于北京师范大学,硕士在北京大学继续深耕。

硕士毕业后,她加入阿里巴巴达摩院担任机器智能实验室研究员,主导开发多语言预训练模型VECO,并推动核心项目AliceMind的开源落地。

2022 年,罗福莉加入DeepSeek母公司幻方量化,后续任职DeepSeek深度学习研究员,深度参与 DeepSeek-V2等标杆模型的研发工作。

而本论文的Project Leader(项目负责人)陈龙,也于今年正式入职小米,担任智能驾驶首席科学家。

在此之前,陈龙曾任职于英国AI独角兽公司Wayve,主导新一代端到端自动驾驶VLA模型的研发。

更早前,他还以研究工程师身份加入Lyft,牵头车队学习项目,通过大规模众包车队数据完成自动驾驶车辆机器学习规划器的预训练。

论文链接: https://arxiv.org/abs/2511.16518

GitHub: https://github.com/XiaomiMiMo/MiMo-Embodied

Huggingface: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

相关内容

深沪交易所:主动ETF基金...
  6月17日,深沪交易所发布主动管理交易型开放式证券投资基金业务...
2026-06-18 02:39:04
清明上河园冲刺港股上市:三...
每经记者 蔡鼎 每经编辑 黄胜  6月15日,开封清明上河园股份有...
2026-06-18 02:38:14
前5月高技术领域投资稳步增...
每经记者 张怀水 每经编辑 陈俊杰  6月16日,国新办就2026...
2026-06-18 02:37:29
社保基金首例期货账户完成开...
  证券时报记者 许孝如  我国养老资金投资运营再迎重要突破。  ...
2026-06-18 02:36:40
电解液赛道掀起长协锁单潮 ...
  证券时报记者 叶玲珍  6月份以来,电解液赛道迎来密集签约潮。...
2026-06-18 02:35:43
美元跃升至日内高点 18名...
  彭博美元指数跃升至日内高点,此前美联储维持政策利率不变并删除宽...
2026-06-18 02:34:18
新亚制程:子公司涉1.53...
来源:AI科技家6月17日,新亚制程公告,全资子公司浙江新亚中宁新...
2026-06-18 02:02:24
亚马逊高管首谈量子技术前景...
转自:财联社财联社6月18日讯(编辑 赵昊)亚马逊高级副总裁彼得·...
2026-06-18 02:00:02
第二批24个适老化改造样板...
    全屋毫米波雷达跌倒监测仪、可升降的厨房设备、智能化的卫浴设...
2026-06-18 01:59:33

热门资讯

深沪交易所:主动ETF基金名称...   6月17日,深沪交易所发布主动管理交易型开放式证券投资基金业务指引。指引围绕主动ETF的特点,对...
清明上河园冲刺港股上市:三年累... 每经记者 蔡鼎 每经编辑 黄胜  6月15日,开封清明上河园股份有限公司(以下简称清明上河园)首次向...
前5月高技术领域投资稳步增长 ... 每经记者 张怀水 每经编辑 陈俊杰  6月16日,国新办就2026年5月份国民经济运行情况举行新闻发...
社保基金首例期货账户完成开立 ...   证券时报记者 许孝如  我国养老资金投资运营再迎重要突破。  6月15日,中国期货市场监控中心发...
电解液赛道掀起长协锁单潮 一体...   证券时报记者 叶玲珍  6月份以来,电解液赛道迎来密集签约潮。宁德时代接连与新宙邦、永太科技敲定...
美元跃升至日内高点 18名FO...   彭博美元指数跃升至日内高点,此前美联储维持政策利率不变并删除宽松倾向相关措辞,18名FOMC成员...
新亚制程:子公司涉1.53亿元... 来源:AI科技家6月17日,新亚制程公告,全资子公司浙江新亚中宁新能源有限公司因委托贷款合同纠纷被诉...
亚马逊高管首谈量子技术前景:实... 转自:财联社财联社6月18日讯(编辑 赵昊)亚马逊高级副总裁彼得·德桑蒂斯(Peter DeSant...
第二批24个适老化改造样板间年...     全屋毫米波雷达跌倒监测仪、可升降的厨房设备、智能化的卫浴设施……昨日,北京市通州区马驹桥镇居...
世界杯可以回看 学业何时有重播     吴睿鸫    四年一度的世界杯如约而至,2026美加墨世界杯横跨6月至7月,中美加墨十余小时...