Spatial-MLLM——提升视觉基础空间智能的MLLM
引言: 该研究提出 Spatial-MLLM,一种仅依赖纯 2D 视觉输入的空间推理框架,解决了「视频 MLLM 空间感知能力弱」「缺乏 3D 结构先验」「采样策略对空间任务不友好」等核心问题。在 VSI-Bench、ScanQA、SQA3D 等空间推理基准上取得 SOTA,仅用 4B 参数即超越 72B 参数的 Gemini-1.5 Pro,展示了高效的架构设计价值。
✈️ Spatial-MLLM 算法介绍
现有的视频多模态大语言模型主要基于 CLIP 等视觉编码器训练,这些编码器在大规模图像-文本对上预训练,擅长语义理解但缺乏空间结构。具体表现为:视频 MLLM 能够准确描述「椅子上有个杯子」,但难以回答「杯子在椅子的哪个位置」。这种局限源于 CLIP 训练目标主要关注语义匹配,而非几何关系建模。
问题的根本原因在于:现有方法依赖额外 3D 或 2.5D 数据(如深度图、点云、体素)来恢复空间信息,这限制了纯 2D 场景的应用范围。在实际应用中,获取高质量的 3D 数据成本高昂,而视频数据却更加丰富和易得。如果能仅从 2D 视频中提取有效的空间结构信息,将极大扩展视觉语言模型的应用边界。

为此,作者提出了 Spatial-MLLM 框架,核心创新在于双编码器架构和空间感知帧采样。双编码器架构同时利用 2D 语义特征和 3D 结构特征,而空间感知帧采样则通过贪心算法从大量视频帧中选择最具代表性的少量帧,在计算受限条件下最大化空间信息覆盖。
🚀 Spatial-MLLM 算法流程

Spatial-MLLM 的双编码器架构定义如下:给定视频帧序列 F = {ft}t = 1T,分别提取语义特征和空间特征:
E2D = Encoder2D(F), E3D = Encoder3D(F)
两类特征通过 Connector 融合后输入大语言模型:
H = MLP(Concat(E2D, E3D))
双编码器架构
2D 编码器从 Qwen2.5-VL 的视觉组件初始化,负责提取高层次的语义特征。该编码器在 ImageNet 等大规模数据集上预训练,能够识别「椅子」「杯子」等物体类别,捕捉场景中的语义关系。对于空间推理任务而言,语义理解是基础,但仅有语义信息无法回答关于位置、方向、遮挡等几何问题。
空间编码器从 VGGT(Video Grounded Graph Transformer)的特征骨干初始化,其核心能力是从纯 2D 视频中恢复 3D 结构特征。VGGT 通过建模帧间几何约束,能够在不依赖深度传感器的情况下估计相机位姿和场景布局。这种能力使得 Spatial-MLLM 能够从普通视频中提取类似点云的空间信息,极大降低了数据获取门槛。
Connector 采用简单的 MLP 架构,将两类特征映射到统一的嵌入空间。实验表明,简单的特征融合策略配合高质量的特征提取,比复杂的注意力机制更有效。这种设计保持了训练效率,同时避免了过度拟合。
空间感知帧采样
现实场景中存在一个关键矛盾:GPU 内存限制下,视频 MLLM 通常只能处理 16-32 帧,而完整的场景扫描视频往往包含 2000+ 帧。传统的均匀采样策略会丢失大量空间信息,特别是对稀疏但重要的视角(如物体背面、内部结构)。
作者将此问题转化为最大覆盖问题:从 N 个候选帧中选择 K 帧,使得选择的帧对 3D 空间的覆盖最大化,同时保证帧间视角多样性。具体流程如下:首先对 128 个均匀采样帧提取 3D 特征,然后解码为低分辨率体素表示,最后用贪心算法迭代选择覆盖最多未访问体素的帧。
贪心算法的时间复杂度为 O(K ⋅ N ⋅ V),其中 V 是体素数量。对于 N = 128, K = 16, V = 643 的典型设置,该方法可在毫秒级完成选择,适合实际部署。与均匀采样相比,空间感知采样在相同帧数下能提供更好的空间覆盖,使模型能「看到」更多关键区域。
训练策略
Spatial-MLLM-120K 数据集是模型训练的核心资源,包含 ScanQA、SQA3D 等现有基准,以及作者自建的空间问答数据。数据构建遵循「难例优先」原则:优先标注模型难以推理的空间关系问题,如「从当前视角能看到冰箱背面吗?」「走到桌子旁边需要绕过几个障碍物?」。

监督微调阶段,作者冻结了 2D 编码器和空间编码器,仅训练 Connector 和 LLM 部分。这种冷启动策略有两个优势:保留预训练编码器的泛化能力,加速收敛并避免灾难性遗忘。训练初期使用较小的学习率(1 × 10−5),逐步衰减至 1 × 10−6。
GRPO(Group Relative Policy Optimization)增强阶段旨在提升长思维链空间推理能力。传统的单步监督学习难以训练复杂的多步推理,而 GRPO 通过策略优化模型学习「观察-分析-推理-回答」的完整链路。奖励函数综合考虑回答准确性和推理过程的合理性,避免模型通过捷径(如随机猜测)获得高分。
🎯 训练细节与实验结果
模型参数规模为 4B,其中视觉编码器约 2B,LLM 约 1.6B,Connector 约 0.4B。训练设置包括:输入分辨率 640 × 480,每批 16 帧,序列长度 2048 tokens。优化器采用 AdamW,峰值学习率 5 × 10−5,余弦退火调度器。训练在 8 张 A100 GPU 上进行,batch size 为 32,总训练步数约 50,000。
VSI-Bench 是评估空间智能的主要基准,包含物体定位、方向判断、遮挡推理等子任务。Spatial-MLLM 在仅输入 16 帧的情况下,超越输入 85 帧的 Gemini-1.5 Pro 3.0%,达到 67.5% 的准确率。更重要的是,参数效率显著优于 baseline:4B 参数的 Spatial-MLLM 接近 72B 参数模型的性能。

ScanQA 和 SQA3D 是 3D 场景问答基准,传统方法依赖点云或体素输入。Spatial-MLLM 作为纯 2D 方法,在 ScanQA 上达到 56.8%,在 SQA3D 上达到 48.3%,超越多数需要 3D 输入的方法。消融实验表明:双编码器架构相比单编码器提升 12.4%,空间感知采样相比均匀采样提升 8.7%,GRPO 训练相比仅 SFT 提升 5.2%。 
实验还揭示了模型在不同空间推理类型上的能力差异:相对位置推理(如「杯子在桌子左边」)准确率达 71.2%,而绝对距离估计(如「椅子距离门口多少米」)仅为 45.6%。这种差异提示未来的改进方向:引入更精确的比例尺学习机制。
💡 洞察与结论
双编码器的有效性是本研究最重要的发现。语义信息和结构信息并非冗余,而是互补:语义编码器提供「是什么」的理解,空间编码器提供「在哪里」的先验。两者的结合使模型能够处理更复杂的空间推理任务,而无需额外 3D 数据。这为纯 2D 视频的空间理解提供了新的技术路径。
空间感知采样的对比实验揭示了采样策略对性能的显著影响。均匀采样假设所有帧重要性相同,而空间感知采样明确建模了帧间信息冗余。这种思想可扩展到其他视觉-语言任务,如动作识别(关键帧选择)和视频摘要。
RL 训练的价值体现在思维链质量上。仅 SFT 的模型倾向于生成简短、直接的回答,而 GRPO 训练的模型会输出多步推理过程,如「首先观察物体的相对位置,然后分析遮挡关系,最后推断可达性」。这种可解释性对调试和信任建立具有重要意义。
局限性方面,模型仍存在改进空间。首先,4B 参数规模相对较小,扩展到更大模型可能进一步提升性能。其次,Spatial-MLLM-120K 数据集规模相比图像-文本数据仍有差距,未来可通过合成数据或主动学习扩展。最后,当前方法假设视频是静态场景的扫描,动态场景的空间理解仍是开放问题。
开放问题包括:如何在没有清晰结构线索的场景下进行空间推理?如何将空间理解能力迁移到真实世界的动态视频?这些问题可能需要融合新的视觉表征或学习范式。