RSVLM-QA

Name: RSVLM-QA
Creator: University of Technology Sydney
Published: 2025-08-11 20:32:48
License: 暂无描述

arXiv2025-08-11 更新2025-08-13 收录

下载链接：

https://github.com/StarZi0213/RSVLMQA

下载链接

链接失效反馈

官方服务：

资源简介：

RSVLM-QA是一个针对遥感视觉语言模型问答的大规模、多源、丰富注释的VQA数据集。它由WHU、LoveDA、INRIA和iSAID四个遥感数据集整合而成，并采用了一种创新的LLM驱动（GPT-4.1）的注释生成流水线。该数据集包含13,820张图像和162,373个VQA对，具有广泛的注释和多样化的题型。RSVLM-QA旨在解决遥感图像中复杂的解释和问答问题，为地球观测数据的解释提供支持。

RSVLM-QA is a large-scale, multi-source, richly annotated Visual Question Answering (VQA) dataset designed for question answering tasks of remote sensing vision-language models. It integrates four remote sensing datasets including WHU, LoveDA, INRIA, and iSAID, and employs an innovative LLM-driven (GPT-4.1) annotation generation pipeline. The dataset consists of 13,820 images and 162,373 VQA pairs, featuring comprehensive annotations and diverse question types. RSVLM-QA aims to address complex interpretation and question answering challenges in remote sensing imagery, providing support for the interpretation of Earth observation data.

提供机构：

University of Technology Sydney

创建时间：

2025-08-11

搜集汇总

数据集介绍

构建方式

RSVLM-QA数据集通过整合多个著名的遥感分割与检测数据集（WHU、LoveDA、INRIA和iSAID）构建而成，采用创新的双轨标注生成流程。首先，利用大型语言模型（如GPT-4.1）通过精心设计的提示自动生成详细的注释，包括图像描述、空间关系和语义标签，以及基于复杂描述的视觉问答对。其次，针对遥感图像中物体计数的挑战性任务，开发了专门的自动化流程，直接从原始分割数据中提取物体数量，并由GPT-4.1生成自然语言答案，与预设问题模板配对形成计数问答对。整个流程经过严格的人工验证，确保数据的准确性和一致性。

特点

RSVLM-QA数据集包含13,820张图像和162,373个视觉问答对，覆盖了丰富的注释和多样的问题类型。其特点包括：1）多源数据整合，涵盖广泛的场景类型和物体类别；2）详细的文本注释，包括图像描述、空间关系和语义标签；3）多样的问题类型，分为六类（物体识别、特征分析、空间推理、数量查询、存在验证和描述生成）；4）复杂的语言表达，平均问题和答案长度较长，词汇量丰富。这些特点使其成为评估视觉语言模型在遥感领域理解和推理能力的理想基准。

使用方法

RSVLM-QA数据集可用于评估视觉语言模型在遥感领域的多项能力，包括物体识别、特征分析、空间推理、数量查询和存在验证。使用方法包括：1）零样本评估，直接测试模型在未见数据上的泛化能力；2）微调训练，通过在该数据集上训练模型以提升其在遥感视觉问答任务中的表现；3）多任务学习，结合图像描述生成等任务进行综合评估。评估时可采用自动化工具（如GPT-4.1）进行答案正确性判断，或使用传统指标（如BLEU、ROUGE-L和METEOR）进行文本生成质量评估。数据集及其生成代码已公开，便于研究者复现和扩展实验。

背景与挑战

背景概述

RSVLM-QA数据集由澳大利亚悉尼科技大学与中国科学院自动化研究所的研究团队于2025年联合推出，旨在解决遥感视觉问答（RSVQA）领域的关键瓶颈问题。该数据集整合了WHU、LoveDA、INRIA和iSAID四大权威遥感数据集，采用GPT-4.1驱动的双轨标注生成技术，构建了包含13,820幅图像和162,373组问答对的大规模资源。其创新性体现在融合语义描述与定量分析的双重评估维度，通过自动化流程生成空间关系描述、语义标签及六类复杂问题，显著提升了遥感场景理解任务的深度与广度。该数据集已成为评估视觉语言模型在遥感领域细粒度推理能力的新基准，对地球观测、环境监测等应用具有重要推动作用。

当前挑战

RSVLM-QA针对遥感视觉问答领域的两大核心挑战展开突破：在领域问题层面，传统数据集存在标注丰富度不足、问题类型单一等缺陷，难以支撑模型对高空视角下小目标识别、复杂空间关系解析等特殊需求的评估；构建过程中需攻克多源异构数据融合、自动化标注可靠性验证等难题。研究团队通过设计基于大语言模型的智能标注流水线，解决了遥感图像特有的语义鸿沟问题——包括跨尺度目标标注一致性校验、空间关系描述的客观性约束等技术难点，同时开发了直接从分割标签提取物体数量的专用算法，确保计数类问题的精确性。这些创新使数据集在保持规模优势的同时，实现了问题复杂度与标注准确度的平衡。

常用场景

经典使用场景

RSVLM-QA数据集在遥感视觉语言模型（VLM）的开发和评估中具有经典应用场景。该数据集通过整合多个遥感分割和检测数据集，如WHU、LoveDA、INRIA和iSAID，提供了丰富的图像和问答对。其最经典的使用场景包括训练和评估VLM在遥感图像理解、空间关系推理和对象计数等任务中的性能。通过多样化的问答类型，如对象识别、特征分析、空间推理、数量查询和存在验证，RSVLM-QA能够全面测试模型的多模态理解能力。

衍生相关工作

RSVLM-QA数据集已经衍生出多项经典研究工作。基于该数据集，研究者开发了多种先进的视觉语言模型，如Gemma3、InternVL3和Ovis2，这些模型在遥感图像理解和问答任务中表现出色。此外，数据集的双轨标注方法启发了后续研究在自动标注和问答生成方面的创新。RSVLM-QA还促进了遥感领域多模态基准测试的发展，为模型评估提供了标准化平台。这些衍生工作共同推动了遥感视觉语言理解技术的进步。

数据集最近研究