Visual Spatial Tuning (VST)
收藏github2025-11-10 更新2025-11-11 收录
下载链接:
https://github.com/Yangr116/VST
下载链接
链接失效反馈官方服务:
资源简介:
Visual Spatial Tuning (VST) 是一个全面的框架,旨在培养视觉语言模型(VLMs)具备类人的视觉空间能力——从空间感知到高级推理。它包括VST-Perception (VST-P),包含4.1M样本,覆盖19个技能,涉及单图像、多图像场景和视频,以增强VLMs的空间感知;以及VST-Reasoning (VST-R),包含135K精选样本,用于教导模型进行空间推理,包括逐步推理和基于规则的数据,以通过强化学习增强推理能力。
Visual Spatial Tuning (VST) is a comprehensive framework designed to equip Vision-Language Models (VLMs) with human-like visuospatial capabilities, spanning from spatial perception to advanced reasoning. It comprises two components: VST-Perception (VST-P), which contains 4.1 million samples across 19 skills, covering single-image, multi-image scenarios and videos to enhance the spatial perception of VLMs; and VST-Reasoning (VST-R), which includes 135,000 curated samples for teaching models to perform spatial reasoning, including step-by-step reasoning and rule-based data, to strengthen reasoning abilities via reinforcement learning.
创建时间:
2025-11-07
原始信息汇总
Visual Spatial Tuning (VST) 数据集概述
框架介绍
Visual Spatial Tuning (VST) 是一个综合性框架,旨在培养视觉语言模型具备类人空间视觉能力——从空间感知到高级推理。
数据集组成
VST-Perception (VST-P)
- 样本规模:410万样本
- 任务数量:19个任务
- 覆盖场景:
- 单图像
- 多图像
- 视频
- 性能提升:
- CVBench-3D:提升约20%
- BLINK:提升约5%
- VSIBench:提升约16%
VST-Reasoning (VST-R)
- 样本规模:13.5万样本
- 数据划分:
- 推理步骤数据 (CoT):教授模型如何进行空间推理
- 规则可检查数据:用于在线强化学习以增强推理技能
- 性能提升:
- MMSI-Bench:提升8.9%
训练流程
采用渐进式训练管道:
- 监督微调:建立基础空间知识
- 强化学习:增强空间推理能力
模型性能
空间与通用基准测试
| 模型 | CV | 3DSR | MMSI | BLINK | VSI | MMStar | MMB | RealworldQA | MMMU | OCRB | AI2D |
|---|---|---|---|---|---|---|---|---|---|---|---|
| VST-3B-SFT | 84.4 | 54.1 | 30.2 | 59.1 | 57.9 | 58.0 | 80.9 | 68.4 | 45.2 | 83.7 | 82.5 |
| VST-3B-RL | 84.2 | 56.5 | 31.3 | 57.2 | 57.7 | 58.9 | 80.5 | 68.5 | 49.8 | 80.9 | 82.4 |
| VST-7B-SFT | 85.5 | 54.6 | 32.0 | 62.1 | 60.6 | 63.1 | 83.3 | 72.2 | 50.6 | 85.5 | 84.9 |
| VST-7B-RL | 86.5 | 60.1 | 34.8 | 62.6 | 61.2 | 63.5 | 83.0 | 68.5 | 49.4 | 86.1 | 83.5 |
VSIBench 详细性能
| 方法 | 平均 | 物体计数 | 绝对距离 | 物体大小 | 房间大小 | 相对距离 | 相对方向 | 路径规划 | 接近顺序 |
|---|---|---|---|---|---|---|---|---|---|
| VST-3B-SFT | 57.9 | 69.3 | 45.4 | 71.8 | 62.4 | 59.0 | 46.0 | 38.7 | 70.2 |
| VST-3B-RL | 57.7 | 66.6 | 45.0 | 72.8 | 60.9 | 59.9 | 47.6 | 40.7 | 68.3 |
| VST-7B-SFT | 60.6 | 72.0 | 44.4 | 74.3 | 68.3 | 59.7 | 55.8 | 44.9 | 65.2 |
| VST-7B-RL | 61.2 | 71.6 | 43.8 | 75.5 | 69.2 | 60.0 | 55.6 | 44.3 | 69.2 |
SUN RGBD 3D 物体检测
| 方法 | AP@15 |
|---|---|
| Seed1.5-VL | 33.5 |
| Gemini-2.0-Pro | 32.5 |
| Gemini Robotics-ER | 48.3 |
| VST-3B-SFT | 37.3 |
| VST-3B-RL | 40.1 |
| VST-7B-SFT | 41.6 |
| VST-7B-RL | 44.2 |
模型可用性
| 模型名称 | HuggingFace 地址 |
|---|---|
| VST-3B-SFT | https://huggingface.co/rayruiyang/VST-3B-SFT |
| VST-3B-RL | https://huggingface.co/rayruiyang/VST-3B-RL |
| VST-7B-SFT | https://huggingface.co/rayruiyang/VST-7B-SFT |
| VST-7B-RL | https://huggingface.co/rayruiyang/VST-7B-RL |
应用领域
- 视觉语言模型空间能力增强
- 机器人学习强化
- 物理基础人工智能发展
搜集汇总
数据集介绍

构建方式
在视觉语言模型研究领域,构建具备人类空间认知能力的数据集成为关键挑战。Visual Spatial Tuning数据集通过分层设计实现了系统化构建:VST-Perception子集涵盖410万样本,跨越单图像、多图像与视频三大视觉场景,系统覆盖19类空间感知任务;VST-Reasoning子集则精心筛选13.5万样本,包含思维链推理步骤与可验证规则数据,为强化学习提供结构化训练基础。这种双模块架构通过监督微调与强化学习的递进式训练流程,有效建立了从空间感知到高级推理的能力演进路径。
特点
该数据集展现出多维度技术特征:其核心优势在于全面覆盖空间认知的完整链条,从基础物体定位到复杂空间关系推理均设有专门训练模块。在基准测试中表现出显著提升效果,如在CVBench-3D评估中实现约20%性能跃升,VSIBench基准达到61.2%的先进水平。特别值得关注的是其多模态兼容特性,不仅支持传统图像理解,还能处理视频时序信息与多图像关联分析,同时保持模型在通用视觉语言任务上的原始能力不受影响。
使用方法
研究者可通过HuggingFace平台直接加载预训练模型权重,利用transformers库实现快速部署。实践应用时需配置专用处理器处理视觉输入,支持单图、多图及视频数据的批量处理。对于空间推理任务,系统提供思维链激活选项,通过特殊标签封装推理过程。训练阶段可采用分步实施方案:先通过监督微调建立空间感知基础,再结合规则验证数据开展强化学习优化。评估体系包含MMSI-Bench、VSIBench等专业空间认知基准,配套完整评测指南确保结果可复现。
背景与挑战
背景概述
视觉空间调优数据集由研究团队于2025年提出,旨在系统性地增强视觉语言模型在空间感知与推理方面的能力。该数据集通过构建包含410万样本的感知模块和13.5万样本的推理模块,覆盖单图像、多图像及视频场景下的19项空间技能,显著提升了模型在三维空间理解、物体定位和路径规划等核心任务上的表现。其渐进式训练框架结合监督微调与强化学习,不仅刷新了多项空间基准测试的记录,更为具身智能和机器人学习领域提供了关键数据支撑。
当前挑战
视觉空间理解领域长期面临多维空间关系建模的复杂性挑战,包括物体相对距离判断、方位推理及动态场景解析等难点。在数据集构建过程中,需协调多模态数据对齐与质量控制的平衡,同时确保推理链数据的逻辑严谨性。此外,大规模视频序列标注中的时空一致性维护,以及强化学习阶段奖励函数的设计,均为实现人类级空间认知能力的关键技术壁垒。
常用场景
经典使用场景
在视觉语言模型研究领域,Visual Spatial Tuning数据集通过其精心设计的感知与推理双模块架构,为空间认知任务提供了系统性训练框架。该数据集最经典的应用场景体现在对多模态模型进行空间关系理解的渐进式优化,研究者可借助VST-P模块的410万样本覆盖单图、多图及视频场景,结合VST-R模块的13.5万链式推理数据,构建从基础空间感知到复杂空间推理的完整训练流程。这种分层设计使模型在CVBench-3D、VSIBench等空间基准测试中实现显著性能跃升,特别适用于需要精确理解物体三维位置关系的视觉问答任务。
实际应用
在产业落地层面,VST数据集显著增强了视觉语言动作模型的物理交互能力。其训练出的模型在SUN RGBD三维物体检测任务中达到44.2%的AP@15指标,为智能机器人导航、增强现实交互等场景提供核心技术支持。在自动驾驶领域,模型对相对距离、路径规划等空间关系的精准理解,可提升车载系统对复杂交通场景的解析能力。工业质检场景中,基于多视角图像的空间关系推理能有效识别装配部件的位姿异常。
衍生相关工作
该数据集的发布催生了系列创新研究,其渐进式训练范式被拓展应用于具身智能领域。基于VST架构的视觉语言动作模型在机器人操作任务中展现出卓越的空间推理能力,相关改进方法在VeOmni等项目中得到延续发展。在评估体系方面,其构建的VSIBench细粒度空间指标为后续研究提供新基准,而融合强化学习的训练策略更在EasyR1等框架中形成技术传承,推动多模态模型向具身推理方向持续演进。
以上内容由遇见数据集搜集并总结生成



