PanoWorld dataset

github2026-05-31 更新2026-06-01 收录

下载链接：

https://github.com/wcpcp/PanoWorld

下载链接

链接失效反馈

官方服务：

资源简介：

PanoWorld数据集包含57万条全景记录及相应元数据，覆盖室外全景数据，并引用了29万张RealSee3D全景图像，用于全景原生空间超感知、空间定位、3D关系推理和导航任务。

The PanoWorld dataset contains 570,000 panoramic recordings and their corresponding metadata, covering outdoor panoramic data and incorporating 290,000 RealSee3D panoramic images. It is developed for tasks including panoramic-native spatial super-perception, spatial localization, 3D relational reasoning, and navigation.

创建时间：

2026-05-15

原始信息汇总

数据集概述：PanoWorld

PanoWorld 是一个面向360°全景图的全景原生超感知数据集与模型项目，旨在让视觉语言模型（VLM）直接在全景等距柱状投影（ERP）图像上进行感知与推理，解决传统模型依赖碎片化透视图而难以关联360°空间线索的问题。

核心概念

全景原生超感知：模型直接从完整的360° ERP全景图中学习，而非拼接多个窄视角透视图。
PanoWorld 模型：通过球形空间交叉注意力机制将球形几何注入视觉流，实现360°空间理解。
PanoSpace-Bench：诊断性基准，用于评估ERP原生空间定位、3D关系、全向视野（BFOV）定位与重定向能力。
具身迁移：将全景理解能力迁移至导航任务（如R2R-CE Val-Unseen）。

已发布资源

所有模型、数据集和基准均托管在 Hugging Face 的 wcccp 下：

资源	链接	描述
PanoWorld 模型	wcccp/PanoWorld	主模型检查点，专为全景原生空间超感知训练
PanoWorld-Hstar 模型	wcccp/PanoWorld_Hstar	基于H*/Thinking-in-360设置微调的模型
PanoWorld 数据集	wcccp/Pano_dataset	训练数据
PanoSpace-Bench	wcccp/PanoSpace-Bench	基准数据集，用于评估ERP原生空间定位、3D推理、接缝连续性、BFOV定位和重定向

数据集详情

规模：包含 570K 全景记录及其对应元数据。其中约 290K 张 RealSee3D全景图像 需从 realsee-developer/RealSee3D 申请下载后与元数据配对使用；其余户外全景数据直接发布。
训练数据对：同时发布 100万训练数据对，用于训练 PanoWorld 模型。
元数据生成：使用 WeDetect/WeDetect-Ref 进行开放词汇检测与局部重定位，并结合伪深度图（当缺少度量深度时通过 depth_estimation/ 生成）构建空间关系、语义增强与QA导出。

发布状态

✅ 论文与项目主页
✅ 代码开源
✅ PanoWorld 与 PanoWorld-Hstar 检查点
✅ 训练数据集发布
✅ PanoSpace-Bench 发布
待发布：VLN导航迁移代码与相关资源

使用与复现

下载资源：通过 huggingface-cli 下载检查点、数据集和基准。
环境配置：使用 train_copy/ 目录下的 environment.yml 和 requirements.txt 创建 conda 环境。
基准推理：修改 train_copy/config/config.yaml 配置模型路径、数据路径和图像根目录，运行评估模式。
模型训练：指定 Qwen3.5-VL 基础模型和训练数据对，使用 DeepSpeed 进行全参数微调。
元数据生成：按顺序运行 base_data_generation/ 中的脚本，包括全景扫描、视角生成、目标检测、语义富集与关系构建。

引用

bibtex @article{panoworld2026, title = {PanoWorld: Towards Spatial Supersensing in 360° Panorama World}, author = {Wang, Changpeng and Lin, Xin and Liu, Junhan and Liu, Yuheng and Wang, Zhen and Qi, Donglian and Yan, Yunfeng and Chen, Xi}, journal = {arXiv preprint arXiv:2605.13169}, year = {2026} }

搜集汇总

数据集介绍

构建方式

PanoWorld数据集的构建过程精细而系统，旨在为全景空间超感知提供高质量训练数据。研究团队首先收集了570K条全景记录及其对应元数据，全面开放室外全景数据，而对于其中290K张来自RealSee3D的室内全景图像，则通过元数据索引引导用户从原始来源申请下载并配对。在此基础上，团队通过深度估计模块为缺失度量深度的全景图像生成伪深度图，随后利用基础数据生成流水线，依次执行ERP视口采样、开放词汇目标检测与语义丰富、空间场构建、关系推理及问答对导出等步骤，最终产出了100万对训练数据，为模型的全景原生推理能力奠定坚实数据基础。

特点

PanoWorld数据集的核心特点在于其全景原生超感知特性，彻底打破了传统多模态大语言模型依赖碎片化透视裁剪的局限。该数据集直接基于完整的等距柱状投影全景图像进行构建，使模型能在连续观察者中心的世界中感知和推理，从而统一全环绕表征。其配套的PanoSpace-Bench基准测试专为评估ERP原生空间定位、三维关系推理、视场边界连续性与重定向能力而设计，同时PanoWorld模型通过球面空间交叉注意力机制将球面几何注入视觉流，并成功将全景理解迁移至具身导航任务，展现出卓越的空间关联与盲区消除能力。

使用方法

PanoWorld数据集的使用遵循清晰的流程，确保研究者能高效复现与应用。用户首先通过Hugging Face下载发布的模型检查点、全景基准数据及训练数据对，其中RealSee3D图像需单独申请获取并与元数据对齐。随后，可通过配置训练脚本中的模型路径、数据索引与图像根目录，在训练或评估模式下启动流水线。支持对PanoWorld主模型进行全参数微调或对H*变体进行知识蒸馏式微调，同时提供完整的元数据生成工具链，允许用户从零开始重建数据集或扩展至自定义全景场景，适应多样化的空间智能研究需求。

背景与挑战

背景概述

全景视觉理解是计算机视觉与多模态大语言模型交叉领域的前沿研究方向，旨在克服传统模型仅能处理有限视角图像的局限性，实现对360°全方位场景的连贯感知与推理。由浙江大学、加州大学圣迭戈分校、加州大学尔湾分校及香港大学的研究人员于2026年共同提出的PanoWorld数据集，开创性地引入了全景原生超感知概念，通过完整的等距柱状投影图像作为观察者中心的连续世界表征，使视觉语言模型能够直接在全景空间中进行空间定位、三维关系推理、边界融合感知及重定向等任务。该数据集包含57万条全景记录及配套元数据，并提供了100万对训练样本，其配套的PanoSpace-Bench基准测试为全景空间智能评估树立了新标杆，对推动机器人导航、增强现实及智能监控等领域的发展具有重要影响。

当前挑战

PanoWorld数据集面临的核心挑战在于攻克全景空间感知的多重难题。领域层面，传统多模态大模型受限于碎片化透视视角，难以在全景范围内关联空间线索，实现完整的360°视野理解与三维空间推理，这要求模型必须具备球形几何感知能力以处理等距柱状投影带来的畸变和连续性挑战。构建过程中，数据集需从多个来源采集全景图像，其中29万张RealSee3D全景图需单独申请下载并与元数据配对，增加了数据整合的复杂度；同时，为生成570K全景记录的元数据，需开发伪深度估计、开放词汇检测、语义丰富及空间关系构建等一系列复杂流程，确保训练数据的质量与多样性，这些技术环节的精密协同构成了工程实现上的显著挑战。

常用场景

经典使用场景

在视觉与语言交叉领域，全景图像凭借其360°无死角的视野优势，成为突破传统透视视角局限性的关键数据形态。PanoWorld数据集专为全景原生空间超感知任务而设计，其核心使用场景在于驱动多模态大语言模型对完整等距柱状投影全景图进行端到端的感知与推理。研究者借助该数据集，能够训练模型直接在全景观测空间中进行人类中心的视觉搜索、全方位三维空间关系判断以及全景导航等复杂任务，从而有效规避传统方法因拼接多个透视碎片而导致的空间关联信息丢失问题。

解决学术问题

该数据集系统性地解决了现有MLLM在360°视野下空间推理能力不足的学术困境。传统研究常将全景图切割为多个透视子图独立处理，这一范式难以建立跨视角的空间一致性认知。PanoWorld通过提供570K全景记录与百万级训练对，使得模型能够学习完整的球面几何表征，进而攻克了全景原生空间定位、全景边界场感知目标定位以及相机重定向等关键学术难题。其配套的PanoSpace-Bench基准测试更为诊断全景感知能力提供了标准化评估框架，显著推进了沉浸式空间理解研究的发展。

衍生相关工作

PanoWorld数据集的发布催生了一系列具有影响力的衍生工作。其中，PanoWorld-Hstar模型作为Thinking-in-360微调变体，进一步强化了模型在全景条件下进行深度思维链推理的能力。研究社区围绕该数据集展开了多维度探索，包括基于球面空间交叉注意力机制改进视觉特征提取、利用伪深度估计增强三维空间关系建模，以及借助开放词汇检测实现全景场景的语义再定位。这些衍生工作不仅丰富了全景感知研究的技术路线，也为后续探索视觉语言模型在连续观察者中心世界的认知边界奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集