SenseNova-SI-800K
收藏Hugging Face2025-12-23 更新2025-12-24 收录
下载链接:
https://huggingface.co/datasets/sensenova/SenseNova-SI-800K
下载链接
链接失效反馈官方服务:
资源简介:
SenseNova-SI-800K 是一个多模态基础模型数据集,旨在提升空间智能能力。作为 SenseNova-SI 系列的一部分,该数据集包含 80 万个多样化的数据样本,用于训练和验证空间智能模型。数据集采用 JSONL 格式存储,每个条目包含唯一标识符、对话记录和图像路径。通过训练,模型在多个空间智能基准测试中表现出显著提升。该数据集是 SenseNova-SI-8M 的一个子集,用于研究数据规模对模型性能的影响。
创建时间:
2025-12-09
原始信息汇总
SenseNova-SI-800K 数据集概述
基本信息
- 数据集名称: SenseNova-SI-800K
- 发布方: SenseNova
- 许可证: Apache-2.0
- 主要语言: 英语 (en)
- 数据规模: 100K < n < 1M
- 任务类别: 视觉问答、问答
- 数据格式: Parquet (通过
SenseNova-SI-800K.parquet文件提供) - 数据拆分: 训练集
数据集简介
SenseNova-SI-800K 是一个旨在提升多模态基础模型空间智能能力的数据集。它是更大规模数据集 SenseNova-SI-8M 的一个高效子集,用于研究数据规模扩展规律。该数据集通过系统化的空间能力分类法构建,包含多样化的数据样本。
核心内容与结构
数据集采用 JSONL 格式组织,每个数据条目包含三个主要字段:
id: 数据样本的唯一标识符。conversations: 对话轮次列表。每轮对话是一个包含from(说话者身份,如 human 或 gpt)和value(文本内容)的字典。在value中,<image>占位符用于标记图像插入位置。image: 图像路径字符串列表。路径是相对于根数据目录的相对路径。
图像占位符 <image> 的数量与 image 字段中列出的图像数量相匹配。
关联模型与评估
- 关联模型: 使用该数据集训练得到的模型示例为 SenseNova-SI-1.1-InternVL3-8B-800K。
- 性能表现: 该模型在 VSI、MMSI、MindCube-Tiny、ViewSpatial、SITE 等多个空间智能基准测试上相较于基础模型有显著提升,并与强基线模型性能相当。
- 评估工具: 建议使用 EASI 工具对训练后的模型在主流的空间智能基准上进行评估。
相关资源
- 论文: Scaling Spatial Intelligence with Multimodal Foundation Models
- 代码仓库: SenseNova_SI
- 评估排行榜: EASI-Leaderboard
引用信息
如需引用,请使用提供的 BibTeX 条目。
搜集汇总
数据集介绍

构建方式
在空间智能研究领域,构建高质量的数据集是推动多模态基础模型能力发展的关键。SenseNova-SI-800K作为SenseNova-SI系列的一个高效子集,其构建遵循了系统化与原则性的方法论。研究团队基于严格的空间能力分类体系,从规模更大的八百万样本母集中精心筛选出八十万条多样化的数据样本。这一过程旨在确保数据在覆盖广泛空间认知任务的同时,维持高度的代表性与平衡性,为研究数据规模效应提供了坚实且可控的基础。
使用方法
对于希望利用该数据集的研究者而言,其使用流程清晰而直接。数据以JSON Lines格式存储,可直接加载并进行解析。典型的应用场景是用于监督微调,以增强现有视觉语言模型(如InternVL3、Qwen3-VL)的空间推理能力。训练完成后,研究者可借助EASI评估框架,在超过十个主流的空间智能基准测试上对模型性能进行系统化评测,从而科学量化模型在空间理解方面的提升幅度与泛化能力。
背景与挑战
背景概述
空间智能作为多模态人工智能的核心能力之一,涉及对视觉场景中物体位置、方向、距离及空间关系的深度理解与推理。尽管多模态基础模型在通用视觉理解方面取得了显著进展,但在空间推理任务上仍存在明显不足。为系统性地提升模型的空间智能,商汤科技(SenseTime)的研究团队于2025年发布了SenseNova-SI-800K数据集,作为更大规模SenseNova-SI-8M项目的一个高效子集。该数据集基于Qwen3-VL、InternVL3及Bagel等先进多模态模型构建,旨在通过严谨的空间能力分类体系,为模型训练提供多样化、高质量的数据样本,以探索数据规模扩展对空间智能性能的影响规律,并推动多模态基础模型在空间推理领域的突破性发展。
当前挑战
在空间智能领域,核心挑战在于模型需超越简单的物体识别,实现对复杂空间关系(如相对位置、三维结构、视角变换)的精确推理与解释。SenseNova-SI-800K数据集旨在应对这一根本问题,其构建过程面临多重挑战:首先,数据标注需在广泛的空间能力分类体系下确保高质量与一致性,涵盖从基础几何关系到高级场景理解的多样任务;其次,避免模型过拟合与语言捷径(language shortcuts)是关键,要求数据设计能促使模型真正学习视觉空间特征而非依赖文本暗示;此外,大规模多轮对话格式的数据合成与对齐,以及图像与文本插槽的精确匹配,均对数据工程的严谨性提出了极高要求。
常用场景
经典使用场景
在空间智能研究领域,多模态基础模型常面临空间推理能力不足的挑战。SenseNova-SI-800K数据集作为大规模空间智能训练数据的精选子集,其经典使用场景在于为视觉问答任务提供高质量的监督微调数据。通过包含图像与对话的交互式样本,该数据集能够系统性地训练模型理解物体位置、方向、距离等空间关系,从而提升模型在复杂视觉场景中的空间认知与推理能力。
解决学术问题
该数据集旨在解决多模态人工智能中空间智能缺失的核心学术问题。通过构建涵盖多样化空间能力的严谨分类体系,它有效缓解了现有模型在空间基准测试中表现不佳的局限。其意义在于为探索数据缩放规律提供了实证基础,促进了模型在空间泛化能力上的涌现,并降低了模型对语言捷径的依赖,推动了空间推理链思维等前沿研究方向的发展。
实际应用
在实际应用层面,基于SenseNova-SI-800K训练的模型可广泛应用于需要高级空间理解的场景。例如,在自动驾驶系统中辅助车辆感知周围环境的空间布局;在机器人导航中提升对三维空间的交互理解;在增强现实应用中实现虚拟物体与现实场景的精准空间对齐。这些应用依赖于模型对深度、相对位置和几何关系的精确推断,从而赋能智能系统在物理世界中的可靠操作。
数据集最近研究
最新研究方向
在视觉-语言多模态人工智能领域,空间智能作为模型理解与推理三维世界关系的关键能力,正成为前沿研究的焦点。SenseNova-SI-800K数据集的发布,标志着通过大规模、系统化数据构建来提升多模态基础模型空间智能的研究进入了新阶段。该数据集作为SenseNova-SI-8M大规模数据集的精选子集,其核心研究方向聚焦于探索数据规模扩展对模型空间推理能力的提升规律,并深入分析多样化数据训练所引发的涌现泛化能力。当前研究热点紧密围绕如何克服多模态模型在空间关系理解上的固有缺陷,通过严谨的空间能力分类体系构建高质量数据,以驱动模型在VSI、MMSI、MindCube-Tiny等主流空间智能基准测试上取得突破性性能。这一工作不仅为理解多模态模型的缩放定律提供了实证基础,其揭示的关于过拟合风险、语言捷径问题以及空间思维链推理的初步探索,对推动通用人工智能在机器人导航、增强现实等下游应用场景的落地具有深远意义。
以上内容由遇见数据集搜集并总结生成



