SpaceVista-1M

github2025-10-12 更新2025-10-13 收录

下载链接：

https://github.com/PeiwenSun2000/SpaceVista

下载链接

链接失效反馈

官方服务：

资源简介：

SpaceVista是一个全尺度视觉空间推理数据集，涵盖从毫米到公里的空间尺度。该数据集旨在解决现有研究在模型设计和数据集覆盖范围上的局限性，支持从毫米级感知到百米级无人机传感的多样化应用，是首个在数据和模型维度进行系统优化以实现稳健、全场景空间推理的工作。

SpaceVista is a full-scale visual spatial reasoning dataset covering spatial scales from millimeters to kilometers. This dataset aims to address the limitations of existing research in terms of model design and dataset coverage, supports diverse applications ranging from millimeter-scale perception to hundred-meter-level drone sensing, and is the first work to systematically optimize both data and model dimensions to achieve robust, full-scenario spatial reasoning.

创建时间：

2025-10-10

原始信息汇总

SpaceVista数据集概述

数据集基本信息

数据集名称: SpaceVista
全称: All-Scale Visual Spatial Reasoning from $mm$ to $km$
核心特征: 全尺度视觉空间推理，覆盖从毫米到公里的空间尺度

数据集规模与版本

完整数据集: SpaceVista-1M
当前可用版本: 预览版100K子集
数据获取地址: https://huggingface.co/datasets/SpaceVista/Data-Preview

任务类型

多模态任务
文本到音频任务
空间音频任务

技术特点

支持跨尺度空间推理
覆盖多种应用场景：毫米级传感、厘米和米级感知、10米级自动驾驶操作、100米级无人机传感

数据格式

采用ShareGPT格式
提供最多32个提取帧
支持原始MP4视频下载

开发状态

预览版SFT代码库已发布
预览版100K数据集已可用
完整SpaceVista-1M数据集待发布
GRPO代码库和检查点待发布
SpaceVista-Bench基准测试待发布

技术依赖

基于LLaMA-factory、R1-V、VG-LLM和Easy-R1代码库
使用Python 3.10.18开发环境

搜集汇总

数据集介绍

构建方式

在空间感知研究领域，SpaceVista-1M数据集通过多模态数据融合技术构建而成。该数据集整合了从毫米级到千米级跨尺度的视觉与空间音频数据，采用ShareGPT格式进行结构化存储，并包含最多32帧视频片段提取。原始MP4视频素材经过标准化处理流程，确保数据在时空维度上的连贯性与精确对齐，为跨尺度空间推理任务奠定了坚实基础。

特点

SpaceVista-1M的突出特点在于其全尺度覆盖能力，突破传统数据集在空间范围与物体类别上的局限。该数据集囊括室内外场景、桌面物体到航拍视野等多层次空间关系，结合视觉与空间音频的双模态特性，构建出具有复杂空间拓扑结构的语义网络。其数据分布呈现出从微观到宏观的连续谱系特征，为模型理解三维空间关系提供丰富语境。

使用方法

针对该数据集的应用，研究者可通过HuggingFace平台获取数据预览版本，并基于LLaMA-Factory框架进行模型训练。使用流程包括数据格式转换、预训练模型加载与参数配置，支持全参数微调与专家适配器混合训练两种模式。评估阶段提供多基准测试体系，通过标准化脚本可对模型在跨尺度空间推理任务上的表现进行量化分析。

背景与挑战

背景概述

空间认知作为智能系统理解物理世界的基础能力，其研究范围需覆盖从毫米级微观结构到千米级宏观场景的多尺度空间关系。SpaceVista-1M数据集由研究团队于2024年提出，旨在突破现有视觉数据集在空间尺度覆盖与多模态融合方面的局限。该数据集通过整合视觉、文本与空间音频模态，构建了跨尺度的空间推理基准，为自动驾驶、无人机感知等前沿应用提供了关键数据支撑。其创新性体现在首次系统化实现了从微观制造到宏观地理的全尺度空间表征，推动了多模态人工智能在复杂环境中的认知边界。

当前挑战

在空间认知领域，模型需同时解决毫米级精确定位与千米级场景理解的尺度鸿沟，这对传统单尺度感知方法构成严峻挑战。SpaceVista-1M构建过程中面临多源数据对齐难题：需协调不同传感器采集的视觉与空间音频数据，确保跨尺度空间标注的一致性；同时需处理极端尺度差异带来的表征学习困难，例如微观纹理与宏观拓扑的语义关联。此外，多模态融合要求模型同步理解视觉场景的几何特性与空间音频的方位信息，这对跨模态注意力机制的设计提出了更高要求。

常用场景

经典使用场景

在空间感知研究领域，SpaceVista-1M数据集通过覆盖毫米至千米尺度的多模态数据，为跨尺度视觉空间推理任务提供了标准化测试平台。该数据集典型应用于训练多模态大模型处理从微观物体定位到宏观场景理解的连续空间任务，通过融合视觉帧与空间音频数据，支持模型在复杂环境中实现端到端的空间关系解析。

衍生相关工作

基于该数据集衍生的经典研究包括跨尺度空间推理框架SpaceVista-Bench、融合视觉与空间音频的多模态对齐模型，以及适配全尺度数据的GRPO强化学习算法。这些工作通过构建分层专家网络与统一评估标准，显著提升了模型在毫米级精密检测与千米级场景理解任务中的泛化能力。

数据集最近研究