VRSBench

Name: VRSBench
Creator: 阿卜杜拉国王科技大学
Published: 2024-06-18 16:15:21
License: 暂无描述

arXiv2024-06-18 更新2024-06-20 收录

下载链接：

https://vrsbench.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

VRSBench是由阿卜杜拉国王科技大学创建的一个大型多任务遥感图像理解数据集，包含29,614张图像，每张图像配有详细的人工验证描述、52,472个对象引用和123,221个问答对。数据集通过半自动数据收集流程创建，包括属性提取、提示工程、GPT-4推理和人工验证，确保高质量和大规模。VRSBench旨在推动遥感领域中视觉-语言模型的发展，支持图像描述、视觉定位和视觉问答等多种任务，解决现有数据集在详细对象信息、质量控制和多任务适应性方面的不足。

VRSBench is a large-scale multi-task remote sensing image understanding dataset developed by King Abdullah University of Science and Technology (KAUST). It comprises 29,614 images, each paired with detailed human-validated descriptions, 52,472 object references, and 123,221 question-answer pairs. The dataset is constructed via a semi-automated data collection pipeline that includes attribute extraction, prompt engineering, GPT-4 inference, and human validation, ensuring both high quality and large-scale coverage. VRSBench aims to advance the development of vision-language models in the remote sensing domain, supports multiple tasks such as image captioning, visual grounding, and visual question answering, and addresses the limitations of existing datasets in terms of detailed object information, quality control, and multi-task adaptability.

提供机构：

阿卜杜拉国王科技大学

创建时间：

2024-06-18

搜集汇总

数据集介绍

构建方式

VRSBench数据集的构建采用了半自动化的数据收集流程，结合了对象属性提取、提示工程、GPT-4推理和人工验证四个关键步骤。首先，从现有的遥感图像检测数据集中提取图像和对象信息，包括对象类别、边界框、位置和大小等属性。随后，通过精心设计的提示指令，调用GPT-4生成详细的图像描述、对象引用和问答对。最后，所有生成的注释均经过人工验证，确保其准确性和质量。这一流程不仅提高了数据收集的效率，还保证了注释的详细性和一致性。

特点

VRSBench数据集包含了29,614张高分辨率遥感图像，每张图像均配备了详细的人工验证注释，包括29,614条详细图像描述、52,472条对象引用和123,221对问答对。该数据集的特点在于其注释的多样性和高质量，涵盖了图像描述、视觉定位和视觉问答等多种任务。此外，VRSBench还提供了复杂的对象引用场景，其中每个引用句子都能在多个相似对象中明确识别出目标对象，进一步增强了数据集的实用性和挑战性。

使用方法

VRSBench数据集可用于训练和评估多任务视觉-语言模型，特别是在遥感图像理解领域。用户可以通过该数据集进行图像描述生成、视觉定位和视觉问答等任务的模型训练和性能评估。数据集提供了详细的注释文件，用户可以根据任务需求选择相应的注释类型进行模型训练。此外，VRSBench还支持对现有模型的基准测试，用户可以通过该数据集评估模型在复杂遥感场景下的表现，并进一步优化模型性能。

背景与挑战

背景概述

VRSBench是由阿卜杜拉国王科技大学的研究团队于2024年提出的一个多任务遥感图像理解基准数据集。该数据集旨在推动通用大规模视觉-语言模型在遥感领域的应用。VRSBench包含了29,614张遥感图像，每张图像均配有详细的人工验证标注，包括52,472个对象引用和123,221个问答对。该数据集支持图像描述、视觉定位和视觉问答等多种任务，为遥感图像理解提供了全面的训练和评估平台。VRSBench的提出填补了现有遥感数据集的不足，特别是在多任务集成和标注质量方面的改进，显著推动了遥感领域视觉-语言模型的发展。

当前挑战

VRSBench面临的挑战主要体现在两个方面。首先，遥感图像中的对象通常非常小（有时仅占10像素），且需要从俯视角度进行复杂的空间推理，这对模型的视觉理解能力提出了极高的要求。其次，数据集的构建过程中，尽管采用了GPT-4生成初始标注，但由于遥感图像的复杂性和多样性，生成的标注存在一定的不准确性和模糊性，因此需要通过人工验证来确保标注质量。此外，现有的视觉-语言模型大多基于自然场景数据训练，直接应用于遥感图像时表现不佳，因此需要针对遥感领域进行专门的模型优化和训练。

常用场景

经典使用场景

VRSBench数据集广泛应用于遥感图像理解领域，特别是在图像描述生成、视觉定位和视觉问答任务中。其丰富的标注信息，包括详细的图像描述、对象引用和问答对，使得该数据集成为训练和评估大规模视觉-语言模型的理想选择。通过提供多样化的任务场景，VRSBench能够支持从单一任务到多任务联合学习的广泛研究需求。

衍生相关工作

VRSBench的推出催生了一系列相关研究工作，特别是在遥感图像的多任务学习和大规模视觉-语言模型训练方面。基于该数据集，研究者们开发了多种先进的模型，如LLaVA-1.5、MiniGPT-v2和GeoChat等，这些模型在图像描述生成、视觉定位和视觉问答任务中均取得了显著进展。此外，VRSBench还为遥感领域的多模态学习提供了新的研究方向，推动了该领域的进一步发展。

数据集最近研究