VSI-100k
收藏github2025-04-22 更新2025-04-23 收录
下载链接:
https://github.com/zhijie-group/R1-Zero-VSI
下载链接
链接失效反馈官方服务:
资源简介:
为了解决数据稀缺问题,我们构建了VSI-100k。具体来说,利用ScanNet 3D标注信息,我们构建了大约100k个问答对。
To address the issue of data scarcity, we constructed VSI-100k. Specifically, leveraging the 3D annotation information from ScanNet, we generated approximately 100k question-answer pairs.
创建时间:
2025-03-30
原始信息汇总
数据集概述:R1-Zero-VSI
📌 数据集基本信息
- 名称:VSI-100k
- 构建目的:解决视觉空间推理任务中数据稀缺问题
- 数据规模:约10万条问答对
- 数据来源:基于ScanNet 3D标注信息构建
🔧 数据集特点
- 内容构成:包含视觉空间推理相关的问答对
- 构建技术:利用3D场景标注信息生成
- 应用场景:用于训练改进视觉空间推理能力的模型
🏆 实验成果
- vsGRPO-2B模型:性能超越GPT-4o
- vsGRPO-7B模型:性能接近最佳开源模型LLaVA-Video-Next-72B
📅 发布计划
- 数据集发布:预计2025年6月
- 代码发布:训练代码和评估代码预计2025年6月发布
📜 许可信息
- 代码许可:Apache 2.0
- 数据许可:CC BY-NC 4.0
- 使用限制:仅限研究用途
🙏 致谢
- 基于R1-V和ScanNet项目构建
- 使用了trl、Qwen2-VL和vllm等开源技术
搜集汇总
数据集介绍

构建方式
在视觉空间推理研究领域,数据稀缺问题长期制约着模型性能的提升。VSI-100k数据集创新性地利用ScanNet的三维标注信息,通过系统化的数据构建流程,生成了约10万组高质量的问答对。该构建过程充分挖掘三维场景的空间关系特征,将几何信息转化为结构化知识,为模型训练提供了丰富的视觉空间推理素材。
特点
作为专注于视觉空间推理任务的专业数据集,VSI-100k展现出三个显著特征:其问题设计全面覆盖物体计数、绝对距离、相对方位等多维度的空间认知能力评估;采用三维场景的真实空间标注确保数据真实性;问答对的规模优势为模型训练提供了充足的样本支持。这些特性使其成为提升中小规模视觉语言模型空间推理能力的理想训练资源。
使用方法
该数据集主要服务于视觉空间推理模型的训练与评估。研究人员可通过加载预处理后的三维场景数据及对应问答对,采用GRPO等先进训练方法进行模型优化。实验表明,基于该数据集训练的vsGRPO系列模型在空间推理任务上展现出卓越性能,其中2B参数规模的模型已超越GPT-4o,7B版本则达到与LLaVA-Video-Next-72B相当的水平。使用时需注意遵守CC BY-NC 4.0许可协议。
背景与挑战
背景概述
VSI-100k数据集由Zhenyi Liao、Qingsong Xie等研究人员于2025年构建,旨在解决视觉空间推理领域的数据稀缺问题。该数据集基于ScanNet的3D标注信息,构建了约10万条问答对,为视觉空间推理任务提供了丰富的训练资源。研究团队通过GRPO训练方法,显著提升了中小型Qwen2-VL模型的视觉空间推理能力,其中vsGRPO-2B模型甚至超越了GPT-4o的性能,vsGRPO-7B模型则达到了与当前最佳开源模型LLaVA-Video-Next-72B相当的水平。这一成果不仅填补了视觉空间推理领域的数据空白,还为相关模型的训练与评估提供了重要基准。
当前挑战
视觉空间推理任务面临的主要挑战在于模型对空间关系的准确理解与推理能力。传统方法如思维链(CoT)提示策略难以有效激活中小型模型的视觉空间推理能力,导致推理效果不佳。在数据集构建过程中,研究团队需要从ScanNet的3D标注信息中提取并构建高质量的问答对,这一过程涉及复杂的空间关系标注与语义对齐问题。此外,如何确保生成的问题涵盖多样化的空间推理场景,同时保持答案的准确性与一致性,也是数据集构建中的关键挑战。
常用场景
经典使用场景
在视觉空间推理领域,VSI-100k数据集通过精心构建的10万组问答对,为中小规模视觉语言模型的训练提供了丰富素材。该数据集基于ScanNet的三维标注信息构建,特别适用于提升模型在物体计数、绝对距离估算、相对方向判断等空间认知任务上的表现。vsGRPO-2B和vsGRPO-7B模型的优异表现证实了该数据集在激活模型视觉空间推理能力方面的有效性。
解决学术问题
VSI-100k有效解决了视觉语言模型在空间认知任务中数据稀缺的核心问题。传统方法依赖思维链提示策略往往难以激活中小规模模型的空间推理能力,而该数据集通过结构化三维场景标注,系统性地覆盖了物体尺寸感知、房间空间关系理解、路径规划等关键维度,为研究界提供了量化评估模型空间智能的基准平台。
衍生相关工作
VSI-100k的发布推动了视觉空间推理领域的系列研究,其方法论启发了一批基于三维场景标注的衍生工作。相关研究团队在R1-V和ScanNet等项目基础上,进一步发展了多模态空间关系建模技术。后续工作如LLaVA-Video-Next等开源模型,均在数据集构建策略上借鉴了该研究的框架设计。
以上内容由遇见数据集搜集并总结生成



