空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间
创始人
2025-11-30 14:15:30
0

(来源:机器之心)

本文第一作者为刘禹宏,上海交通大学人工智能专业本科四年级学生,相关研究工作于上海人工智能实验室科研实习期间完成。通讯作者为王佳琦、臧宇航,在该研究工作完成期间,均担任上海人工智能实验室研究员。

近年来,视觉大语言模型(LVLM)的空间智能受到了广泛关注,高水平的空间理解能力对于自动驾驶、具身智能等领域发展有着重要意义。然而,当前的LVLM在空间理解方面仍显著落后于人类。

近期,来自上海人工智能实验室、上海交通大学、香港中文大学等机构的研究团队提出了名为Spatial-SSRL (Self-Supervised Reinforcement Learning) 的全新自监督RL范式,无需任何外界标注,旨在提升LVLM空间理解能力。实验证明,该范式在 Qwen2.5-VL(3B&7B) 和最新的 Qwen3-VL(4B) 架构下都成功地提升了模型的空间理解能力,同时保留了原有的通用视觉能力。

目前Spatial-SSRL的Huggingface model&dataset总下载量已经突破1k,欢迎大家下载和使用!

  • 论文链接:

https://arxiv.org/pdf/2510.27606

  • 仓库链接:

https://github.com/InternLM/Spatial-SSRL

  • 模型链接:

https://huggingface.co/internlm/Spatial-SSRL-7B

https://huggingface.co/internlm/Spatial-SSRL-Qwen3VL-4B

  • 数据集链接:

https://huggingface.co/datasets/internlm/Spatial-SSRL-81k

研究背景

传统的提升LVLM空间理解的方法大多基于监督微调 (SFT) 范式。该方法的训练数据往往包含带思维链(CoT)的答案,需要大量人工标注或闭源模型标注,成本较高,可扩展性低。此外,SFT优化后的模型还容易出现“死记硬背”,泛化性弱的性能局限。

基于可验证奖励的强化学习(RLVR)成为了新的主流训练范式。如图2(a),现有利用RLVR提升空间理解的方法常聚焦于搭建复杂的流程构建训练数据,其中往往依赖已标注好的公开数据集,以及较多外部工具,如专家模型、模拟器等,框架较为繁琐,且使用的外部工具也会引入不小的计算开销和时间成本。

RGB和RGB-D图内部本身包含大量于2D和3D空间信息,可以天然地作为视觉监督信号。因此,研究者们提出自监督RL的新范式,实现低成本高效增强LVLM空间理解能力。

图2. Spatial-SSRL与相关工作框架对比

方法介绍&核心亮点

Spatial-SSRL基于低成本、易采集的RGB、RGB-D图像,构建了五种自监督任务:打乱图块重排序、翻转图块识别、裁剪图块复原、区域深度排序、3D相对位置预测。这五个任务将视觉线索作为监督信号,分别聚焦于感知和理解2D布局、局部物体朝向、3D深度与位置关系等空间信息,互为补充,从多方位全面提升空间理解能力。

图3. Spatial-SSRL方法总览

相较于之前的方法,Spatial-SSRL具备以下核心亮点(如图2(b)):

  • 高度可扩展性:Spatial-SSRL利用常见的RGB和RGB-D原始图像,而不使用任何已标注好的数据集或额外的人工标注,在数据规模上有极强的可扩展性。

  • 成本低廉:整个训练的流程不需要人工标注或调用LVLM的API,数据完全由程序自动化标注,大幅降低了成本。

  • 轻量高效:以往空间理解方法严重依赖外部工具,容易引入训练误差,也会增加时间和计算开销。而Spatial-SSRL具有轻量级框架,可以实现在不修改原有流程的条件下,简便地扩展到更多高效的自监督任务上进行训练。

  • 天然可验证性:视觉自监督任务利用图像固有的结构作为内在监督信号,其正确性接近100%,且可直接得到天然可验证奖励信号,与当前性能较强的RLVR范式高度契合。

随后,研究者们基于上述流程构建了数据集Spatial-SSRL-81k,并在此基础上使用GRPO方法训练,引导模型输出推理过程,提升空间理解能力。

实验结果

为充分验证Spatial-SSRL范式的效果,研究团队选取了Qwen2.5-VL (3B&7B)和Qwen3-VL(4B)两个架构的三个不同参数量的基模型,利用GRPO进行训练,并对训练后的模型进行了空间理解、通用视觉能力等全方位评测,与相应的基模型实施了对比分析。

图4. 训练前后模型在空间理解基准的性能对比(Qwen2.5-VL架构)图5. 训练前后模型在通用视觉基准的性能对比(Qwen2.5-VL架构)

从图4和图6可以看出,在Qwen2.5-VL和Qwen3-VL两种架构的三个不同参数量下,Spatial-SSRL都对LVLM空间理解能力带来了显著提升,且在所有的7个空间基准(包含图片和视频两类模态)上均表现有所进步。其中,7B的平均水平超越基线模型3.89%,而3B更是达到了4.63%。这展现出了Spatial-SSRL自监督RL范式的有效性和鲁棒性。

另一个很多人可能关心的问题是:空间理解能力虽然提升了,但模型本来的通用能力是否会下降。研究人员进一步评测了训练前后模型的通用视觉能力,在通用视觉问答和OCR与图表理解两大类基准上进行测试,发现模型的通用视觉能力基本保持稳定,平均表现甚至略有提升。这证明了Spatial-SSRL不会导致模型“遗忘”其原有的技能。

图6. 训练前后模型的性能对比(Qwen3-VL架构)

总结

Spatial-SSRL是一种直接从内在图像结构中生成可验证监督的自监督强化学习范式。其核心优势在于可以从常见易大规模低成本采集的 RGB 与 RGB-D 图像直接提取丰富的空间理解自监督信号,且这些信号可通过可验证奖励自然地与强化学习兼容。

在七个空间基准上的全面实验表明,Spatial-SSRL 带来显著空间理解提升,且复杂空间推理基准上增益尤为显著。关键的是,Spatial-SSRL 不仅增强空间能力,还能同时保持原有的细粒度感知和通用视觉理解能力。这说明了简单的内在视觉监督信号可以有效实现大规模RLVR,对于未来提升LVLM空间智能提供了新的思路和方法!

目前该工作代码、模型和数据集均已开源,希望大家多多下载体验!

相关内容

明王朝册封琉球共计15次
(来源:今晚报)转自:今晚报 ...
2025-11-30 14:45:55
告别超长账期内卷,龙头车企...
  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力...
2025-11-30 14:45:49
混团世界杯打响 “莎头”组...
转自:北京日报客户端揭幕战开始前,全场起立为中国香港大埔宏福苑火灾...
2025-11-30 14:45:42
我们彼此年轻
蔡崇达 小饭 老蔡: 好久不见。很久以前是叫你达达的...
2025-11-30 14:45:34
香港降半旗 致悼火灾遇难...
本报讯 综合新华社、央视新闻报道,11月29日,香港举行活动悼念...
2025-11-30 14:45:28
周知!5类抗氧化食物了解一...
【周知!#5类抗氧化食物了解一下#】#身体氧化受损有哪些警报信号#...
2025-11-30 14:45:19
0.5克重可承载200公斤...
11月30日,山西一高性能碳纤维项目在大同市云冈区竣工投产,成功实...
2025-11-30 14:41:25
多家企业向香港捐款捐物驻港...
转自:贝壳财经 【#多...
2025-11-30 14:41:20
转发!警惕!女子打减肥针吐...
#央视曝光减肥针#【转发!警惕!#女子打减肥针吐出绿色黄色红色#】...
2025-11-30 14:41:15

热门资讯

明王朝册封琉球共计15次 (来源:今晚报)转自:今晚报 #明敕谕揭示琉球曾是中国藩...
告别超长账期内卷,龙头车企率先...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:第一财经资讯...
混团世界杯打响 “莎头”组合零... 转自:北京日报客户端揭幕战开始前,全场起立为中国香港大埔宏福苑火灾罹难者默哀一分钟11月30日,20...
我们彼此年轻 蔡崇达 小饭 老蔡: 好久不见。很久以前是叫你达达的,没多久改为老蔡。老蔡老蔡的也叫了...
香港降半旗 致悼火灾遇难者 本报讯 综合新华社、央视新闻报道,11月29日,香港举行活动悼念大埔宏福苑火灾遇难者,相关支援善后...
周知!5类抗氧化食物了解一下 【周知!#5类抗氧化食物了解一下#】#身体氧化受损有哪些警报信号# 抗氧化不仅仅是抗衰老,它更是我们...
0.5克重可承载200公斤载荷... 11月30日,山西一高性能碳纤维项目在大同市云冈区竣工投产,成功实现12K小丝束T1000级碳纤维国...
多家企业向香港捐款捐物驻港中资... 转自:贝壳财经 【#多家企业向香港捐款捐物##驻港中资企...
转发!警惕!女子打减肥针吐出绿... #央视曝光减肥针#【转发!警惕!#女子打减肥针吐出绿色黄色红色#】#每周质量报告#[话筒]江苏的陈女...
女子上门追讨工资后老板自缢身亡... (来源:上观新闻)据封面新闻,湖南永州一女子到老板家中追讨劳动报酬,双方发生争执后,不料次日老板在自...