OmniVQA
收藏arXiv2025-05-20 更新2025-05-22 收录
下载链接:
http://arxiv.org/abs/2505.14197v1
下载链接
链接失效反馈官方服务:
资源简介:
OmniVQA数据集是首个开源的全向视觉问答数据集,基于ERP格式的全景图像构建,包含三种任务类型:物体识别、属性分析和空间关系推理,尤其关注极地区域。该数据集由香港理工大学、香港科技大学等研究机构合作开发,旨在为全向视觉问答提供全面的数据支持和基准测试。数据集包含1213张全景图像,总计4852个问答对,通过迭代优化策略生成,以确保数据质量和模型性能。OmniVQA数据集及其配套的基准测试OmniVQABench,为评估和改进全向视觉问答模型提供了重要的工具。
The OmniVQA dataset is the first open-source omnidirectional visual question answering (VQA) dataset constructed based on equirectangular projection (ERP) format panoramic images. It encompasses three task types: object recognition, attribute analysis, and spatial relationship reasoning, with a particular focus on polar regions. This dataset was collaboratively developed by research institutions including The Hong Kong Polytechnic University and The Hong Kong University of Science and Technology, aiming to provide comprehensive data support and benchmarking for omnidirectional VQA. The dataset contains 1,213 panoramic images and a total of 4,852 question-answer pairs, which are generated via an iterative optimization strategy to ensure data quality and model performance. The OmniVQA dataset and its supporting benchmark, OmniVQABench, serve as critical tools for evaluating and improving omnidirectional VQA models.
提供机构:
香港理工大学
创建时间:
2025-05-20
搜集汇总
数据集介绍

构建方式
OmniVQA数据集的构建基于斯坦福2D-3D-S数据集中的ERP格式全景图像,通过精心设计的三阶段流程实现。首先,利用经过OmniVQABench微调的Qwen2.5-VL模型生成详细的视觉描述;其次,由DeepSeek-R1模型基于这些描述生成链式推理(CoT)风格的逻辑分析;最后,Qwen2.5-14B模型将推理过程提炼为简洁答案。为确保数据质量,采用迭代优化策略,通过SentenceBERT-Score筛选高质量样本并持续更新模型,辅以人工校正。
特点
作为首个开源的全方位视觉问答数据集,OmniVQA聚焦于极地区域的对象定位、属性分析和空间关系推理三大任务,包含4,852个问答对,覆盖1,213张1440×720分辨率的ERP全景图像。其独特之处在于针对全景图像几何畸变设计的三大问题类型:对象识别(31.12%)、属性分析(25.87%)和空间推理(43.01%),并通过链式推理标注和结构化奖励机制,显著提升了模型在复杂全景场景中的多模态理解能力。
使用方法
该数据集支持端到端的全方位视觉问答任务评估,用户可通过加载ERP格式图像和对应问题,调用多模态大语言模型(如Qwen2.5-VL或360-R1)生成推理链和答案。基准测试包含200张精选全景图像,采用QwenScore等四项指标评估模型性能。对于模型训练,建议结合GRPO强化学习框架,利用数据集提供的结构化奖励(推理相似性、答案准确性和格式合规性)进行微调,以优化空间推理和幻觉抑制能力。
背景与挑战
背景概述
OmniVQA数据集由香港理工大学和香港科技大学的研究团队于2025年提出,是首个专注于全景视觉问答(VQA)的开源数据集。该数据集基于斯坦福2D-3D-S数据集构建,包含1,213张等距柱状投影(ERP)格式的全景图像,涵盖4,852个视觉问答对,重点解决物体识别、属性分析和空间关系推理三大核心任务。其创新性在于首次系统性地探索了多模态大语言模型(MLLMs)在360°全景环境中的理解与推理能力,填补了传统VQA研究在沉浸式视觉场景中的空白,为增强现实、虚拟现实和具身智能等领域的空间认知研究提供了基准平台。
当前挑战
OmniVQA面临的挑战主要体现在领域问题和构建过程两方面。在领域层面,全景图像特有的几何畸变导致物体定位精度下降(尤其在极地区域),多尺度特征提取困难,且模型易产生与视觉内容无关的幻觉回答。构建过程中,需克服三大技术难点:1) 等距柱状投影引起的极地区域形变干扰标注一致性;2) 空间关系问题需设计特殊模板以捕捉球面坐标系下的方位关系;3) 数据迭代优化需平衡自动化生成与人工校验,通过SentenceBERT评分筛选高质量样本时面临语义对齐阈值设定的敏感性。此外,现有MLLMs在全景上下文中的表现差距(如JanusPro-7B的DeepSeekScore仅0.3429)凸显了领域适配的迫切性。
常用场景
经典使用场景
OmniVQA数据集专为全景视觉问答(VQA)任务设计,其经典使用场景包括在增强现实(AR)、虚拟现实(VR)和具身智能系统中进行复杂的空间推理。通过提供360°全景图像及其对应的问答对,该数据集支持模型在对象识别、属性分析和空间关系推理等任务中的性能评估与优化。特别是在极地区域的对象定位和遮挡分析中,OmniVQA展现了其独特的价值,为多模态大语言模型(MLLMs)在全景环境下的理解能力提供了基准测试平台。
实际应用
在实际应用中,OmniVQA数据集为智能导航系统、虚拟旅游导览和工业检测等场景提供了关键技术支撑。例如,在室内机器人导航中,模型通过解析全景图像的极地区域对象分布,可精准规划路径;在文化遗产数字化领域,该数据集训练的模型能自动生成展品的空间关系描述,提升用户体验。此外,其增强的幻觉抑制能力在安防监控等高风险场景中显著降低了误报率。
衍生相关工作
基于OmniVQA的360-R1框架衍生了一系列创新研究,包括采用分组相对策略优化(GRPO)的强化学习方法、跨模态链式思维生成技术,以及动态高分辨率训练策略。这些工作显著提升了模型在全景视频问答(如PanoAVQA)和球形语义分割(如OmniSAM)中的性能。同时,该数据集还催生了针对室外场景的扩展版本,进一步推动了多模态大模型在自动驾驶等领域的应用。
以上内容由遇见数据集搜集并总结生成



