PanoEnv-QA

github2026-02-25 更新2026-03-01 收录

下载链接：

https://github.com/7zk1014/PanoEnv

下载链接

链接失效反馈

官方服务：

资源简介：

一个大规模VQA基准测试，包含14,827个问题，涵盖5个类别，用于360°全景空间推理。

A large-scale VQA benchmark comprising 14,827 questions across 5 categories, designed for 360° panoramic spatial reasoning.

创建时间：

2026-02-24

原始信息汇总

PanoEnv-QA 数据集概述

数据集基本信息

数据集名称：PanoEnv-QA
发布会议：CVPR 2026
核心内容：一个用于360°全景空间推理的大规模视觉问答（VQA）基准
数据总量：14,827 个问题
下载地址：https://huggingface.co/datasets/7zkk/PanoEnv
许可证：Apache 2.0 License

数据集构成与类别

数据集包含5个问题类别，具体分布如下：

类别	问题数量	占比
属性比较	2,975	20.1%
距离估计	2,975	20.1%
相对空间定位	2,975	20.1%
环境识别	2,965	20.0%
视角源识别	2,937	19.8%
总计	14,827	100%

数据文件

数据集包含以下关键文件：

train_relabeled.jsonl：训练数据
val_relabeled.jsonl：验证数据
test_benchmark_relabeled.jsonl：测试基准数据

数据来源与生成

基础数据源：TartanAir 合成3D环境数据集 (https://theairlab.org/tartanair-dataset/)
生成方式：通过处理TartanAir数据生成等距柱状投影（ERP）全景图，并运行 qa_generation.py 脚本生成问答对。

基准性能结果

在PanoEnv-QA基准上的主要模型性能对比：

模型	总准确率	对/错题	多选题	开放题	Q-Score	P-Score
Qwen2.5-VL-7B (Base)	49.34%	65.19%	57.24%	6.39%	5.60	5.48
Qwen2.5-VL-32B	42.70%	62.47%	44.96%	8.36%	5.02	4.92
GRPO-Balanced (Ours)	52.93%	68.78%	58.90%	14.83%	6.24	5.95

相关资源

论文：https://arxiv.org/abs/xxxx.xxxxx
代码仓库：https://github.com/your-repo/panoenv.git
基础视觉语言模型：Qwen2.5-VL (https://github.com/QwenLM/Qwen2-VL)

搜集汇总

数据集介绍

构建方式

在三维空间智能研究领域，PanoEnv-QA数据集的构建依托于TartanAir合成三维环境数据，通过系统化的流程生成全景视觉问答对。该流程首先从TartanAir数据集获取原始三维场景信息，随后将其处理为等距柱状投影的全景图像。在此基础上，设计了一套自动化问答生成机制，针对五大空间推理类别——属性比较、距离估计、相对空间定位、环境识别与视角源识别——生成了共计14,827个高质量问题。生成过程确保了问题与全景图像的几何及语义紧密关联，为模型训练提供了丰富的三维空间上下文。

特点

PanoEnv-QA数据集的核心特征在于其专注于360度全景环境下的三维空间推理，涵盖了多样化的空间认知任务。数据集包含五个精心设计的类别，每类问题数量均衡，总计近1.5万个问答对，确保了评估的全面性。其问题设计深度结合了全景图像的独特几何属性，要求模型理解球面投影下的空间关系与物体属性。此外，数据集支持多种评估模式，包括判断题、选择题与开放式问题，并引入了Qwen-Score与Prometheus-Score等自动化评估指标，为衡量模型的空间智能提供了多维度的基准。

使用方法

使用PanoEnv-QA数据集时，研究者可通过Hugging Face平台直接下载预处理好的数据，或基于TartanAir原始数据自行生成。数据集以标准JSONL格式提供，便于集成到现有训练流程中。配套代码库提供了完整的训练与评估脚本，支持基于GRPO的强化学习后训练框架。用户可通过配置脚本中的关键超参数，如奖励权重与学习率，对视觉语言模型进行微调。评估阶段，利用提供的脚本可计算总体准确率及各类别性能，从而系统评估模型在全景空间推理任务上的表现。

背景与挑战

背景概述

全景视觉问答作为三维空间智能领域的前沿研究方向，旨在评估模型对360度全景图像中复杂空间关系的理解能力。PanoEnv-QA数据集由研究团队于2026年提出，作为CVPR会议的核心成果之一，其构建基于TartanAir合成三维环境数据，通过严谨的几何推理框架生成涵盖五大类别的14,827个高质量问答对。该数据集聚焦于全景环境中的空间推理任务，包括属性比较、距离估计、相对空间定位等关键问题，为视觉语言模型在三维场景理解方面的性能评估提供了标准化基准，显著推动了具身智能与机器人导航等领域的研究进展。

当前挑战

在三维空间推理领域，模型需克服全景图像中存在的几何畸变与视角变化，准确解析物体间的深度关系与相对方位，这对传统视觉问答系统构成了严峻挑战。PanoEnv-QA构建过程中，研究团队面临合成数据与真实场景的域适应难题，需通过复杂的几何建模与数据增强技术确保问答对的逻辑一致性。此外，数据标注需融合计算机视觉与空间认知理论，在保持问题多样性的同时避免语义歧义，这对标注流程的设计与质量管控提出了极高要求。

常用场景

经典使用场景

在三维视觉与人工智能交叉领域，全景环境的空间理解是推动智能体感知能力发展的关键挑战。PanoEnv-QA数据集通过提供涵盖属性比较、距离估计、相对空间定位、环境识别及视角源识别五大类别的14,827个问答对，为全景视觉问答任务构建了标准化评估基准。该数据集最经典的使用场景在于训练和验证视觉语言模型在全景图像中的三维空间推理能力，研究者可基于其结构化问题集，系统性地探究模型对复杂场景几何关系的理解深度，从而推动空间智能技术的进步。

解决学术问题

全景视觉理解长期面临空间关系建模不精确、三维几何信息利用不足等学术难题。PanoEnv-QA数据集通过引入几何感知的强化学习框架与课程训练策略，有效解决了模型在开放性问题回答中的性能瓶颈，将准确率提升至52.93%，其中开放式问题性能提升达132%。该数据集的意义在于建立了全景空间推理的可量化评估体系，为三维视觉语言模型的研究提供了关键的数据支撑，促进了跨模态感知与推理技术的融合创新。

衍生相关工作

围绕PanoEnv-QA数据集，学术界已涌现出一系列经典研究工作。基于几何奖励的GRPO后训练框架通过融合三维场景先验知识，优化了视觉语言模型的空间推理性能；两阶段课程学习策略从结构化训练过渡到混合训练，增强了模型优化的稳定性。这些工作不仅推动了Qwen2.5-VL等基础模型的适应性改进，也为全景视觉问答领域设立了新的技术标杆，促进了强化学习与多模态感知的深度融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集