five

SpaceVista-1M

收藏
github2025-10-12 更新2025-10-13 收录
下载链接:
https://github.com/PeiwenSun2000/SpaceVista
下载链接
链接失效反馈
官方服务:
资源简介:
SpaceVista是一个全尺度视觉空间推理数据集,涵盖从毫米到公里的空间尺度。该数据集旨在解决现有研究在模型设计和数据集覆盖范围上的局限性,支持从毫米级感知到百米级无人机传感的多样化应用,是首个在数据和模型维度进行系统优化以实现稳健、全场景空间推理的工作。

SpaceVista is a full-scale visual spatial reasoning dataset covering spatial scales from millimeters to kilometers. This dataset aims to address the limitations of existing research in terms of model design and dataset coverage, supports diverse applications ranging from millimeter-scale perception to hundred-meter-level drone sensing, and is the first work to systematically optimize both data and model dimensions to achieve robust, full-scenario spatial reasoning.
创建时间:
2025-10-10
原始信息汇总

SpaceVista数据集概述

数据集基本信息

  • 数据集名称: SpaceVista
  • 全称: All-Scale Visual Spatial Reasoning from $mm$ to $km$
  • 核心特征: 全尺度视觉空间推理,覆盖从毫米到公里的空间尺度

数据集规模与版本

  • 完整数据集: SpaceVista-1M
  • 当前可用版本: 预览版100K子集
  • 数据获取地址: https://huggingface.co/datasets/SpaceVista/Data-Preview

任务类型

  • 多模态任务
  • 文本到音频任务
  • 空间音频任务

技术特点

  • 支持跨尺度空间推理
  • 覆盖多种应用场景:毫米级传感、厘米和米级感知、10米级自动驾驶操作、100米级无人机传感

数据格式

  • 采用ShareGPT格式
  • 提供最多32个提取帧
  • 支持原始MP4视频下载

相关资源

  • 论文地址: https://arxiv.org/abs/2410.10676
  • 代码仓库: https://github.com/PeiwenSun2000/SpaceVista
  • 主页: https://peiwensun2000.github.io/mm2km/

开发状态

  • 预览版SFT代码库已发布
  • 预览版100K数据集已可用
  • 完整SpaceVista-1M数据集待发布
  • GRPO代码库和检查点待发布
  • SpaceVista-Bench基准测试待发布

技术依赖

  • 基于LLaMA-factory、R1-V、VG-LLM和Easy-R1代码库
  • 使用Python 3.10.18开发环境
搜集汇总
数据集介绍
main_image_url
构建方式
在空间感知研究领域,SpaceVista-1M数据集通过多模态数据融合技术构建而成。该数据集整合了从毫米级到千米级跨尺度的视觉与空间音频数据,采用ShareGPT格式进行结构化存储,并包含最多32帧视频片段提取。原始MP4视频素材经过标准化处理流程,确保数据在时空维度上的连贯性与精确对齐,为跨尺度空间推理任务奠定了坚实基础。
特点
SpaceVista-1M的突出特点在于其全尺度覆盖能力,突破传统数据集在空间范围与物体类别上的局限。该数据集囊括室内外场景、桌面物体到航拍视野等多层次空间关系,结合视觉与空间音频的双模态特性,构建出具有复杂空间拓扑结构的语义网络。其数据分布呈现出从微观到宏观的连续谱系特征,为模型理解三维空间关系提供丰富语境。
使用方法
针对该数据集的应用,研究者可通过HuggingFace平台获取数据预览版本,并基于LLaMA-Factory框架进行模型训练。使用流程包括数据格式转换、预训练模型加载与参数配置,支持全参数微调与专家适配器混合训练两种模式。评估阶段提供多基准测试体系,通过标准化脚本可对模型在跨尺度空间推理任务上的表现进行量化分析。
背景与挑战
背景概述
空间认知作为智能系统理解物理世界的基础能力,其研究范围需覆盖从毫米级微观结构到千米级宏观场景的多尺度空间关系。SpaceVista-1M数据集由研究团队于2024年提出,旨在突破现有视觉数据集在空间尺度覆盖与多模态融合方面的局限。该数据集通过整合视觉、文本与空间音频模态,构建了跨尺度的空间推理基准,为自动驾驶、无人机感知等前沿应用提供了关键数据支撑。其创新性体现在首次系统化实现了从微观制造到宏观地理的全尺度空间表征,推动了多模态人工智能在复杂环境中的认知边界。
当前挑战
在空间认知领域,模型需同时解决毫米级精确定位与千米级场景理解的尺度鸿沟,这对传统单尺度感知方法构成严峻挑战。SpaceVista-1M构建过程中面临多源数据对齐难题:需协调不同传感器采集的视觉与空间音频数据,确保跨尺度空间标注的一致性;同时需处理极端尺度差异带来的表征学习困难,例如微观纹理与宏观拓扑的语义关联。此外,多模态融合要求模型同步理解视觉场景的几何特性与空间音频的方位信息,这对跨模态注意力机制的设计提出了更高要求。
常用场景
经典使用场景
在空间感知研究领域,SpaceVista-1M数据集通过覆盖毫米至千米尺度的多模态数据,为跨尺度视觉空间推理任务提供了标准化测试平台。该数据集典型应用于训练多模态大模型处理从微观物体定位到宏观场景理解的连续空间任务,通过融合视觉帧与空间音频数据,支持模型在复杂环境中实现端到端的空间关系解析。
衍生相关工作
基于该数据集衍生的经典研究包括跨尺度空间推理框架SpaceVista-Bench、融合视觉与空间音频的多模态对齐模型,以及适配全尺度数据的GRPO强化学习算法。这些工作通过构建分层专家网络与统一评估标准,显著提升了模型在毫米级精密检测与千米级场景理解任务中的泛化能力。
数据集最近研究
最新研究方向
在视觉空间推理领域,SpaceVista-1M数据集正推动跨尺度感知研究的前沿探索。该数据集通过整合毫米至千米级的多模态数据,突破了传统室内场景与有限空间范围的局限,为自动驾驶、无人机感知等应用提供全场景分析基础。当前研究聚焦于端到端跨尺度推理模型的优化,结合文本-空间音频的多模态对齐技术,显著提升了智能系统在复杂环境中的空间理解能力。随着GRPO强化学习框架与专家适配器技术的引入,该领域正朝着更精细化的多尺度协同推理方向发展,为下一代具身智能系统奠定数据与算法基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作