five

Spatial-SSRL-81k

收藏
Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/internlm/Spatial-SSRL-81k
下载链接
链接失效反馈
官方服务:
资源简介:
Spatial-SSRL-81k是一个包含81,053个样本的训练数据集,旨在通过五种自监督学习的预训练任务来增强大型视觉语言模型的空间理解能力。
提供机构:
InternLM
创建时间:
2025-10-29
原始信息汇总

Spatial-SSRL-81k 数据集概述

基本信息

  • 数据集名称: Spatial-SSRL-81k
  • 许可协议: MIT
  • 任务类别: 视觉问答、问答
  • 语言: 英语
  • 标签: 空间理解、自监督、预文本、视觉中心
  • 规模分类: 10K<n<100K
  • 样本数量: 81,053

数据集描述

Spatial-SSRL-81k 是一个用于增强大型视觉语言模型空间理解能力的训练数据集。该数据集包含五个自监督学习预文本任务的样本,提供简单、内在的监督信号,能够有效扩展RLVR训练范式。

核心特点

  • 高度可扩展: 使用普通原始RGB和RGB-D图像,无需丰富标注的公共数据集或人工标签
  • 成本效益: 整个流程无需人工标签或API调用
  • 轻量级: 完全无需外部工具,可轻松扩展到更多自监督任务
  • 自然可验证: 预文本目标确定的内在监督信号与RLVR范式良好对齐

数据内容

  • 所有问答对存储在 spatialssrl.parquet 文件中
  • 图像存储在 images.zip 文件中
  • 图像按五个文件夹组织,每个对应一个2D或3D预文本任务

相关资源

  • 论文: https://arxiv.org/abs/2510.27606
  • GitHub仓库: https://github.com/InternLM/Spatial-SSRL
  • 模型: https://huggingface.co/internlm/Spatial-SSRL-7B
  • 演示空间: https://huggingface.co/spaces/yuhangzang/Spatial-SSRL

使用许可

  • 代码许可: Apache 2.0
  • 数据许可: CC By NC 4.0
  • 用途说明: 数据和代码仅限研究使用
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型空间理解研究领域,Spatial-SSRL-81k数据集通过创新的自监督学习范式构建而成。该数据集包含81,053个样本,涵盖五种预文本任务,仅利用普通的RGB和RGB-D图像作为原始素材,无需依赖人工标注或外部工具辅助。这种构建方式摒弃了传统方法对丰富标注数据集的依赖,通过内在监督信号实现数据的高效生成,为强化学习视觉推理范式提供了天然适配的训练基础。
特点
该数据集展现出多重显著特征,其高度可扩展性源于对原始视觉素材的直接利用,避免了人工标注或API调用的成本消耗。轻量化架构使其能够自然兼容现有训练范式,同时保持工具无关的独立性。数据集提供的监督信号具有天然可验证性,与强化学习目标形成精准对齐。这些特性共同构成了一个既经济高效又具备强大泛化能力的数据资源体系。
使用方法
研究人员可通过解析spatialssrl.parquet文件获取所有问答对,同时解压images.zip获取对应的图像资源。图像按五种预文本任务分类存储于独立文件夹中,分别对应不同的空间理解维度。使用过程中需参考原始论文中详细的任务定义与实现方案,确保正确理解各预文本任务的设计逻辑与评估标准,从而充分发挥数据集在提升视觉语言模型空间认知能力方面的潜力。
背景与挑战
背景概述
在视觉语言模型快速发展的背景下,空间理解能力成为制约模型性能提升的关键瓶颈。Spatial-SSRL-81k数据集由InternLM团队于2025年提出,旨在通过自监督学习范式增强大模型对空间关系的认知。该数据集包含81,053个样本,涵盖五种预文本任务,利用普通RGB和RGB-D图像构建内在监督信号,显著提升了强化学习与视觉推理的协同效率。其创新性在于摆脱传统依赖人工标注或外部工具的局限,为空间认知研究开辟了新的技术路径。
当前挑战
空间理解任务面临的核心挑战在于如何从二维图像中提取三维空间关系,并建立跨模态的语义对齐。数据集构建过程中需克服原始数据标注成本高昂、几何一致性难以保证等问题。自监督框架虽降低了人工干预需求,但预文本任务的设计需平衡语义复杂性与监督信号可靠性,避免引入认知偏差。此外,多模态数据融合时RGB与RGB-D图像的特征对齐亦对模型泛化能力构成考验。
常用场景
经典使用场景
在视觉语言模型研究领域,Spatial-SSRL-81k数据集主要应用于自监督学习框架下的空间理解能力增强。该数据集通过五种预文本任务构建了81,053个训练样本,为模型提供了丰富的空间关系学习素材。研究人员利用这些样本训练大型视觉语言模型,使其能够从普通RGB和RGB-D图像中自主提取空间特征,显著提升了模型对物体位置、距离和空间布局的认知能力。
实际应用
在实际应用层面,基于该数据集训练的模型可广泛应用于机器人导航、增强现实和自动驾驶等需要精确空间感知的领域。通过提升模型对三维空间关系的理解能力,使得智能系统能够更准确地识别环境中的物体位置和相对距离。这种增强的空间智能为现实世界的人机交互、环境感知等应用场景提供了坚实的技术支撑,推动了人工智能在物理空间理解方面的实际落地。
衍生相关工作
该数据集的发布催生了一系列重要的衍生研究。基于Spatial-SSRL框架开发的Spatial-SSRL-7B模型在七个空间理解基准测试中表现出色,验证了自监督强化学习范式的有效性。相关研究工作进一步扩展了预文本任务的多样性,探索了更多无需外部标注的空间理解训练方法。这些成果为后续研究提供了重要参考,推动了自监督学习在视觉语言模型领域的深入发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作