RSVQAxBEN-MM

Name: RSVQAxBEN-MM
Creator: 巴黎大学, ONERA
Published: 2025-01-14 22:07:48
License: 暂无描述

arXiv2025-01-14 更新2025-01-16 收录

下载链接：

http://arxiv.org/abs/2501.08131v1

下载链接

链接失效反馈

官方服务：

资源简介：

RSVQAxBEN-MM是一个多模态遥感视觉问答数据集，由巴黎大学和ONERA联合创建。该数据集旨在结合合成孔径雷达（SAR）和光学图像，以提升遥感图像问答任务的性能。数据集包含了来自Sentinel-1和Sentinel-2卫星的SAR和光学图像，涵盖了多种地表覆盖类型，如水域等。数据集的创建过程包括从卫星图像中提取信息，并将其与自然语言问题相结合。该数据集的应用领域包括环境监测、生物多样性评估和人口统计研究，旨在通过多模态融合技术提高遥感图像信息的自动化提取和解释能力。

RSVQAxBEN-MM is a multimodal remote sensing visual question answering dataset jointly created by the University of Paris and ONERA. This dataset aims to combine synthetic aperture radar (SAR) and optical images to enhance the performance of remote sensing image question answering tasks. It includes SAR and optical images from Sentinel-1 and Sentinel-2 satellites, covering various land cover types such as water bodies. The dataset creation process involves extracting information from satellite images and combining it with natural language questions. Its application fields include environmental monitoring, biodiversity assessment and demographic research, with the goal of improving the automated extraction and interpretation of remote sensing image information through multimodal fusion technologies.

提供机构：

巴黎大学, ONERA

创建时间：

2025-01-14

搜集汇总

数据集介绍

构建方式

RSVQAxBEN-MM数据集的构建基于BigEarthNet（BEN）和BigEarthNet-Multi Modality（BEN-MM）数据集，并结合了RSVQAxBEN的问答对。BEN数据集包含590,326个Sentinel-2光学图像补丁，每个补丁与2018年CORINE土地覆盖（CLC）地图的类别相匹配。BEN-MM扩展了BEN，为每个Sentinel-2补丁添加了对应的Sentinel-1 SAR图像，包含VV和VH极化通道。RSVQAxBEN则为每个Sentinel-2图像添加了25个基于CLC标签的问答对。RSVQAxBEN-MM在此基础上进一步整合了SAR图像，形成了包含光学和SAR图像的多模态数据集。

特点

RSVQAxBEN-MM数据集的特点在于其多模态性，结合了光学和SAR图像的优势。光学图像提供了高分辨率的视觉信息，而SAR图像则能够在云层和黑暗条件下捕捉地表信息，提供纹理和表面特性的补充信息。数据集包含61个土地覆盖类别，涵盖了从农业区域到水体的广泛类别。此外，数据集的问答对分为“是/否”问题和土地覆盖问题，前者占主导，后者则要求模型识别图像中的具体类别。数据集的类别分布不平衡，某些类别如农业区域和森林占据了较大比例，这为模型的分类任务带来了挑战。

使用方法

RSVQAxBEN-MM数据集的使用方法主要围绕多模态视觉问答（RSVQA）任务展开。研究者可以通过两种主要管道来处理数据：端到端RSVQA和Prompt-RSVQA。在端到端RSVQA中，光学和SAR图像分别通过编码器提取特征，并与问题的文本特征融合，最终通过多层感知器预测答案。Prompt-RSVQA则分为两个阶段：首先通过多标签分类网络从图像中提取语义信息，然后将这些信息与问题一起输入语言模型以生成答案。此外，研究者还可以尝试不同的融合方法（如早期融合、中期融合和晚期融合）来结合光学和SAR图像的特征，以提升模型性能。

背景与挑战

背景概述

RSVQAxBEN-MM数据集是由Lucrezia Tosato等研究人员于2025年提出的，旨在将合成孔径雷达（SAR）图像引入遥感视觉问答（RSVQA）任务中。该数据集结合了光学图像和SAR图像，扩展了传统的RSVQA任务，使其能够处理多模态数据。该研究得到了法国国家研究署（ANR）的支持，并在GENCI-IDRIS的高性能计算资源上进行了实验。RSVQAxBEN-MM的提出填补了SAR图像在RSVQA任务中的空白，为遥感图像的解释提供了新的视角。该数据集不仅推动了遥感领域的技术进步，还为多模态数据融合在环境监测、灾害管理等领域的应用提供了新的可能性。

当前挑战

RSVQAxBEN-MM数据集面临的挑战主要体现在两个方面。首先，SAR图像的复杂性使得其在RSVQA任务中的应用具有较高的技术难度。SAR图像通过雷达信号捕捉地表信息，虽然不受天气条件影响，但其几何变异性和斑点噪声使得图像解释变得复杂。其次，数据集的构建过程中，如何有效融合光学图像和SAR图像的信息是一个关键挑战。尽管SAR图像提供了光学图像无法捕捉的纹理和表面特征，但两种模态的数据在特征空间上存在较大差异，如何设计有效的融合策略以提升模型性能是研究的核心问题。此外，数据集中类别分布的不平衡性也增加了模型训练的难度，尤其是在处理低频类别时，模型的泛化能力受到限制。

常用场景

经典使用场景

RSVQAxBEN-MM数据集在遥感视觉问答（RSVQA）任务中具有广泛的应用，尤其是在结合合成孔径雷达（SAR）和光学图像的多模态数据时。该数据集通过提供Sentinel-1 SAR图像和Sentinel-2光学图像，支持研究人员开发能够从多模态数据中提取信息的模型。经典的使用场景包括通过自然语言问题从遥感图像中自动提取信息，例如回答关于土地覆盖类型、水体分布等问题的答案。

衍生相关工作

RSVQAxBEN-MM数据集的推出催生了一系列相关研究工作，尤其是在多模态数据融合和遥感视觉问答领域。基于该数据集，研究人员提出了多种融合方法，如早期融合、中期融合和晚期融合，以探索SAR和光学图像的最佳结合方式。此外，该数据集还推动了基于深度学习的遥感图像解释技术的发展，特别是在自然语言处理与遥感图像结合的领域。相关研究进一步扩展了遥感视觉问答的应用范围，例如在目标检测、土地分类和灾害监测等任务中的应用。

数据集最近研究