SpaceVista-1M
收藏arXiv2025-10-11 更新2025-11-19 收录
下载链接:
https://hf-mirror.com/datasets/SpaceVista/Data-Preview
下载链接
链接失效反馈官方服务:
资源简介:
SpaceVista-1M是一个包含约1M个空间问答对的数据集,跨越5个空间尺度,涵盖19种不同的任务类型。该数据集旨在促进跨不同场景的全尺度空间推理能力,通过整合来自微对象到宏对象的线索,涵盖了从mm到km的广泛尺度。数据集的创建过程采用了自动化流程,结合了结构化空间推理知识系统、尺度感知建模和渐进式训练范式。数据集的应用领域包括高级制造、具身智能、自动驾驶和无人机感知等。
SpaceVista-1M is a dataset comprising approximately 1 million spatial question-answer pairs, spanning 5 spatial scales and covering 19 distinct task types. This dataset aims to promote full-scale spatial reasoning capabilities across diverse scenarios, integrating clues from micro-objects to macro-objects and covering a wide range of scales from millimeters to kilometers. The dataset was created using an automated pipeline that combines a structured spatial reasoning knowledge system, scale-aware modeling, and a progressive training paradigm. Its application domains include advanced manufacturing, embodied intelligence, autonomous driving, and unmanned aerial vehicle (UAV) perception, among others.
提供机构:
多媒体实验室,香港中文大学
创建时间:
2025-10-11
搜集汇总
数据集介绍

构建方式
在视觉空间推理研究领域,构建覆盖全尺度场景的数据集面临标注成本高昂与评估精度不足的双重挑战。SpaceVista-1M通过设计任务导向的自动化流程,整合来自毫米至千米尺度的38,000个视频场景,利用专业模型提取深度信息、语义标注与三维坐标,并基于模板与生成式方法构建了涵盖19类任务的百万级问答对,有效平衡了数据多样性与生成效率。
特点
SpaceVista-1M的显著特征在于其跨越六个数量级的全尺度覆盖,从微型桌面物体到无人机航拍场景,囊括了多样化的语义环境与空间关系。数据集不仅提供丰富的二维与三维空间标注,还针对不同尺度设计了专属任务,如微型场景的操控规划与宏观场景的面积估算,并通过融合多模态输入支持交互式推理,为模型适应真实世界复杂性提供了坚实基础。
使用方法
该数据集支持分阶段的模型训练策略:在监督微调阶段,利用带有思维链标注的问答对注入空间知识;在强化学习阶段,则采用回归与选择题格式优化模型对齐。评估时可通过基准测试集SpaceVista-Bench验证模型跨尺度泛化能力,其精确的物理世界标注确保了评测结果的可靠性,为自动驾驶、机器人等领域的空间智能应用提供验证平台。
背景与挑战
背景概述
SpaceVista-1M数据集由香港中文大学多媒体实验室等机构的研究团队于2025年提出,旨在推进全尺度视觉空间推理的研究。该数据集覆盖从毫米到千米的六数量级范围,整合了微观物体至宏观场景的丰富语义与多样化任务,核心研究问题在于解决现有空间推理模型对室内场景的过度依赖,以及缺乏跨尺度统一建模的局限性。通过构建包含约100万问答对和3.8万视频场景的大规模资源,SpaceVista-1M显著拓展了空间智能在工业制造、自主驾驶等领域的应用边界。
当前挑战
SpaceVista-1M面临的挑战主要体现在领域问题与构建过程两方面。在领域层面,需克服跨尺度空间理解的复杂性,例如模型在微观毫米级与宏观千米级场景中易产生尺度冲突与语义歧义。构建过程中,依赖自动化流程生成标注数据可能引入累积误差,而真实物理世界的精确评估需通过手动采集与权威数据检索来保障,增加了数据质量控制与一致性维护的难度。
常用场景
经典使用场景
SpaceVista-1M数据集在视觉空间推理领域被广泛应用于训练和评估多模态大语言模型的全尺度感知能力。其覆盖从毫米到千米六个数量级的视频场景,支持距离估计、物体定位、操作规划等19类任务,为模型提供跨尺度的空间关系理解基础。通过38K视频场景与百万级问答对,该数据集成为探索微观物体至宏观场景空间推理的首选基准。
实际应用
在工业制造领域,该数据集支持精密装配中的毫米级物体操控;在自动驾驶系统中,赋能车辆对道路环境的米级距离感知;无人机遥感应用则利用其千米级场景数据实现区域监测。嵌入式智能设备通过表桌级场景数据提升交互能力,而增强现实系统借助多尺度空间标注实现虚实融合定位,显著提升了智能系统在真实场景中的适应性。
衍生相关工作
基于SpaceVista-1M衍生的SpaceVista-7B模型创新性地提出了尺度感知专家网络与渐进奖励机制,成为全尺度推理的基准框架。后续研究受其启发发展了多模态时空理解模型VILASR、几何增强模型VG-LLM等系列工作。该数据集还催生了面向长视频推理的TempCompass基准和无人机视角的SpaceR-Bench,推动了跨模态空间推理研究范式的演进。
以上内容由遇见数据集搜集并总结生成



