ViLaSR-data
收藏Hugging Face2025-06-22 更新2025-06-23 收录
下载链接:
https://huggingface.co/datasets/AntResearchNLP/ViLaSR-data
下载链接
链接失效反馈官方服务:
资源简介:
ViLaSR-data数据集包含用于视觉语言模型中加强空间推理的图像和文本数据。该数据集分为三个子集:VILASR-ColdStart-33k、VILASR-RRS-8k和VILASR-RL-40k,目前数据集不完整,正在上传中。数据集中的SR_91k部分基于RUBBISHLIKE/SpaceR-151k数据集,遵循CC BY-NC 4.0许可证。
创建时间:
2025-06-14
原始信息汇总
ViLaSR-data 数据集概述
基本信息
- 数据集名称: ViLaSR-data
- 语言: 英语 (en)
- 状态: 当前不完整,文件上传中
数据集来源
- 基于论文: Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing
- 作者: Junfei Wu, Jian Guan, Kaituo Feng, Qiang Liu, Shu Wu, Liang Wang, Wei Wu, Tieniu Tan
- 年份: 2025
- 论文分类: cs.CV
数据集组成
- VILASR-ColdStart-33k: 文件格式为
cold_start_path*.zip - VILASR-RRS-8k: 文件格式为
reflective_rejection_sampling_part*.zip - VILASR-RL-40k: 文件格式为
rl_part*.zip
相关资源
- 代码库: https://github.com/AntResearchNLP/ViLaSR
许可信息
- SR_91k 部分数据来源于 RUBBISHLIKE/SpaceR-151k
- 许可证: CC BY-NC 4.0 License
搜集汇总
数据集介绍

构建方式
在视觉语言模型强化空间推理的研究背景下,ViLaSR-data数据集通过多阶段方法构建而成。该数据集整合了33,000个冷启动样本(VILASR-ColdStart-33k)、8,000个反射拒绝采样样本(VILASR-RRS-8k)以及40,000个强化学习生成样本(VILASR-RL-40k),形成多模态数据集合。其中部分数据源自SpaceR-151k数据集,经过筛选和重组后纳入本数据集体系。数据采集过程注重空间推理能力的多维度表征,通过视觉绘图与思维交织的方式增强样本质量。
特点
作为强化视觉语言模型空间推理能力的专业数据集,ViLaSR-data展现出鲜明的多模态特性。数据集包含超过81,000个样本,涵盖冷启动、反射拒绝采样和强化学习三种生成范式,确保数据多样性。特别值得注意的是,该数据集采用反射拒绝采样机制优化样本质量,通过视觉绘图辅助的空间推理任务设计,为模型提供丰富的几何关系和空间定位学习素材。数据标注遵循严格的学术规范,部分样本继承自经过验证的SpaceR基准数据集。
使用方法
针对视觉语言模型的空间推理能力强化需求,ViLaSR-data建议采用分阶段训练策略。研究人员可优先使用冷启动样本建立基础空间认知,继而通过反射拒绝采样样本优化模型判断能力,最后利用强化学习样本进行微调。数据集配套提供开源代码库,支持直接加载各子集进行模型训练。使用过程中需注意数据授权条款,特别是源自SpaceR-151k的部分需遵守CC BY-NC 4.0许可协议。建议结合原始论文提出的交织思维与视觉绘图框架,最大化数据集的效用。
背景与挑战
背景概述
ViLaSR-data数据集由AntResearchNLP团队于2025年提出,旨在强化视觉语言模型中的空间推理能力。该数据集基于论文《Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing》的研究成果,通过交织思维与视觉绘图的方式,探索视觉语言模型在空间推理任务中的表现。ViLaSR-data包含三个子集:VILASR-ColdStart-33k、VILASR-RRS-8k和VILASR-RL-40k,分别针对冷启动、反射性拒绝采样和强化学习等不同场景设计。该数据集的发布为计算机视觉与自然语言处理交叉领域的研究提供了新的基准,推动了空间推理任务的发展。
当前挑战
ViLaSR-data数据集面临的挑战主要集中在两个方面:领域问题方面,空间推理任务本身具有较高的复杂性,涉及多模态信息的融合与理解,模型需同时处理视觉与语言信号,并建立二者之间的关联;构建过程方面,数据集的采集与标注需要大量人工干预,确保空间关系的准确性与多样性,同时还需解决数据来源的版权问题,例如SR_91k子集需遵循CC BY-NC 4.0许可协议。此外,数据集的完整性仍在完善中,上传与验证过程亦需克服技术与管理上的困难。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,ViLaSR-data数据集为研究视觉语言模型的空间推理能力提供了重要支持。该数据集通过冷启动、反射拒绝采样和强化学习三个子集,系统地构建了视觉与语言交互的复杂场景,成为评估模型在空间关系理解、物体定位和多模态推理等任务性能的基准工具。研究者可利用其丰富的视觉-语言对,深入探索模型在跨模态表示学习中的表现。
实际应用
该数据集在智能导盲系统、增强现实交互等实际场景中展现出重要价值。基于ViLaSR-data训练的模型能够准确理解空间指令,如'将左边的杯子移到书架右侧'等复杂操作描述,显著提升了服务机器人执行空间任务的可靠性。在自动驾驶领域,其增强的空间推理能力有助于车辆更精准地解析导航指令与环境的关系。
衍生相关工作
ViLaSR-data的发布催生了一系列创新研究,包括空间关系增强的视觉问答系统、基于强化学习的多模态对话代理等。特别值得注意的是,该数据集启发了AntResearchNLP团队开发的新型架构ViLaSR,其提出的交织思维机制已成为提升视觉语言模型空间认知能力的经典范式。后续工作如SpaceNet等空间推理基准都在不同程度上借鉴了该数据集的设计理念。
以上内容由遇见数据集搜集并总结生成



