HRVQA
收藏arXiv2023-01-23 更新2024-06-21 收录
下载链接:
https://hrvqa.nl/
下载链接
链接失效反馈官方服务:
资源简介:
HRVQA是一个专为高分辨率航空图像设计的视觉问答数据集,由特文特大学创建。数据集包含53512张1024x1024像素的航空图像,涵盖多种场景和概念,如工业、港口、车站和体育设施。此外,数据集还包含了1070240个半自动生成的QA对,覆盖10种不同类型的问题,从常见的任务推理到特定属性的识别。创建过程中,采用了模板策略和对象检测模型来生成问题和答案。HRVQA旨在为计算机视觉和地球观测研究提供一个全面的基准,特别适用于场景理解和地理空间推理任务。
HRVQA is a visual question answering (VQA) dataset specifically designed for high-resolution aerial images, created by the University of Twente. The dataset contains 53,512 aerial images with a resolution of 1024×1024 pixels, covering diverse scenarios and concepts such as industrial areas, ports, stations, and sports facilities. Additionally, it includes 1,070,240 semi-automatically generated QA pairs that cover 10 distinct types of questions, ranging from common task-based reasoning to specific attribute recognition. During the dataset creation, template strategies and object detection models were adopted to generate the questions and answers. HRVQA aims to provide a comprehensive benchmark for computer vision and earth observation research, and is particularly applicable to scene understanding and geospatial reasoning tasks.
提供机构:
特文特大学
创建时间:
2023-01-23
搜集汇总
数据集介绍

构建方式
在遥感视觉问答领域,高分辨率航空影像的语义理解面临巨大挑战。HRVQA数据集的构建采用半自动化标注策略,以荷兰四个典型城市的53512幅1024×1024像素航空影像为基础。通过整合YOLO-v5目标检测模型与荷兰开放地理数据平台PDOK的标注信息,自动提取27类地物概念的语义特征。基于预定义的10类问题模板与空间位置描述规则,系统生成107万个问答对,并通过三元组过滤机制平衡问题类型分布,有效减少无关样本比例,实现了标注效率与数据质量的平衡。
使用方法
该数据集适用于评估视觉问答模型在航空影像领域的场景理解与地理空间推理能力。使用时应按照论文划分将乌得勒支与鹿特丹作为训练集,恩斯赫德作为验证集,阿姆斯特丹作为测试集。输入需将影像经ResNet-152提取网格特征,问题文本通过GloVe嵌入与LSTM编码为向量表示。建议采用基于注意力的多模态融合架构,特别关注位置编码与门控注意力机制对微小目标定位的增强作用。评估指标可采用整体准确率与平均准确率,并需分问题类型分析模型在颜色识别、空间定位等难点任务上的表现差异。
背景与挑战
背景概述
高分辨率航拍图像视觉问答(HRVQA)数据集由特温特大学的研究团队于2023年提出,旨在推动计算机视觉与地球观测领域的多模态学习研究。该数据集聚焦于航拍图像中的视觉问答任务,涵盖灾害监测、城市规划等实际应用场景。HRVQA包含53512张1024×1024像素的高分辨率航拍图像及1070240个半自动生成的问答对,涉及27类地物概念与10种问题类型,其规模与多样性为航拍图像理解与空间推理提供了重要的基准平台。
当前挑战
HRVQA数据集面临的挑战主要体现在两个方面:在领域问题层面,航拍图像中地物尺度多变、方向任意、目标密集且背景复杂,要求模型具备细粒度语义理解与空间推理能力,尤其针对特定属性(如颜色、位置)的问答任务更具挑战性;在构建过程中,高分辨率图像包含大量微小目标,需设计精细化问题描述以避免歧义,同时标注成本高昂,研究团队通过融合目标检测模型与开放地理数据,以半自动方式生成问答对,并引入平衡过滤机制以提升数据质量与多样性。
常用场景
经典使用场景
在遥感影像智能解译领域,HRVQA数据集为视觉问答任务提供了高分辨率航空影像与多样化问题对的基准测试平台。其经典使用场景聚焦于评估模型对复杂地理空间场景的理解与推理能力,例如在包含密集小目标的城市场景中,模型需准确回答关于特定物体数量、空间位置、属性特征等精细化问题。该数据集通过涵盖10类问题类型与27种地理概念,系统性地检验了模型从整体场景感知到局部细节解析的多层次认知水平。
解决学术问题
HRVQA数据集有效解决了航空影像视觉问答研究中数据稀缺与问题单一化的关键瓶颈。传统遥感VQA数据集往往受限于空间分辨率低、问题类型简单、语义多样性不足等问题,难以支撑对模型深层推理能力的评估。该数据集通过半自动标注策略构建了百万级高质量问答对,不仅涵盖常规的是非判断与计数问题,更引入了针对物体颜色、形状、方位等属性的细粒度问答,为研究模型在尺度变化、目标密集、方向任意等复杂遥感场景下的跨模态理解机制提供了重要数据基础。
实际应用
该数据集在灾害监测、城市规划、数字地球产品生成等实际应用场景中展现出重要价值。例如,在洪涝灾害评估中,系统可通过回答“影像中受损房屋数量”等问题快速统计灾情;在城市交通管理中,模型能基于“左侧第三辆车的颜色”等具体查询定位目标车辆。这些应用不仅要求模型具备宏观场景分类能力,更需实现对微小目标的精准识别与空间关系推理,HRVQA通过提供高分辨率影像与结构化问题对,为开发面向实际需求的遥感智能问答系统提供了关键训练与验证资源。
数据集最近研究
最新研究方向
随着高分辨率遥感影像在灾害监测、城市规划等领域的广泛应用,视觉问答技术正逐步向地理空间智能领域延伸。HRVQA数据集的推出,标志着该领域从通用场景理解向精细化地理空间推理的演进。当前研究聚焦于解决高分辨率影像中微小物体密集分布、尺度变化剧烈等特有挑战,通过引入门控注意力机制与位置编码融合的Transformer架构,显著提升了模型对特定属性问题的解析能力。该数据集涵盖10类问题类型与27种地理概念,其半自动标注范式为大规模遥感VQA数据构建提供了新思路,推动了多模态地理人工智能在实景三维建模、动态环境感知等前沿方向的发展。
相关研究论文
- 1HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images特文特大学 · 2023年
以上内容由遇见数据集搜集并总结生成



