RSICap

Name: RSICap
Creator: 阿里巴巴达摩院
Published: 2023-07-28 10:23:35
License: 暂无描述

arXiv2023-07-28 更新2024-06-21 收录

下载链接：

https://github.com/Lavender105/RSGPT

下载链接

链接失效反馈

官方服务：

资源简介：

RSICap是一个专为遥感领域设计的高质量图像描述数据集，由阿里巴巴达摩院创建。该数据集包含2585个人工标注的图像描述，每个描述都提供了丰富的场景和物体信息，如颜色、形状、位置和数量等。RSICap不仅描述了图像的主要场景，还详细描述了物体之间的关系和视觉推理知识。此外，数据集还包括一个评估集RSIEval，用于评估视觉语言模型在遥感图像描述和视觉问答任务上的表现。RSICap和RSIEval的创建旨在推动遥感领域大型视觉语言模型的发展，解决现有数据集在规模和质量上的不足。

RSICap is a high-quality image captioning dataset specifically designed for the remote sensing field, created by Alibaba DAMO Academy. This dataset contains 2585 manually annotated image captions, each providing rich scene and object information such as color, shape, position, quantity and other relevant details. RSICap not only describes the main scenes of the images but also elaborates on the relationships between objects and visual reasoning knowledge. Additionally, the dataset includes an evaluation set named RSIEval, which is used to assess the performance of vision-language models on remote sensing image captioning and visual question answering tasks. The development of RSICap and RSIEval aims to promote the advancement of large-scale vision-language models in the remote sensing domain, addressing the shortcomings of existing datasets in terms of scale and quality.

提供机构：

阿里巴巴达摩院

创建时间：

2023-07-28

搜集汇总

数据集介绍

构建方式

RSICap数据集的构建基于DOTA目标检测数据集，通过选择包含丰富图像多样性和场景类别的图像，将其分割为512×512大小的补丁，并由五位遥感专家进行人工标注。标注过程遵循描述图像属性、对象属性和场景描述的原则，最终生成了2,585对高质量的遥感图像与文本描述。

特点

RSICap数据集的特点在于其详细且高质量的人工标注，每幅图像的描述不仅包括场景描述，还涵盖了对象的颜色、形状、数量、绝对位置等信息。相较于以往的遥感数据集，RSICap提供了更丰富的细节和更长的描述长度，平均每条描述包含60个词汇，显著提升了数据集的信息密度和实用性。

使用方法

RSICap数据集主要用于训练和微调大规模视觉语言模型（VLMs），特别是在遥感领域的应用。研究者可以利用该数据集进行图像描述生成、视觉问答等任务的模型训练。此外，RSICap还提供了RSIEval评估数据集，用于对VLMs在遥感图像描述和视觉问答任务中的性能进行基准测试。

背景与挑战

背景概述

RSICap数据集由阿里巴巴达摩院的研究团队于2023年创建，旨在推动遥感领域大规模视觉语言模型（VLM）的发展。该数据集包含了2,585个高质量的人工标注图像描述，涵盖了场景描述和物体信息，如颜色、形状、数量和绝对位置等。RSICap的创建填补了当前遥感数据集中缺乏大规模、高质量图像文本对齐数据的空白，为训练和评估遥感领域的VLM提供了重要资源。

当前挑战

RSICap数据集面临的挑战主要在于遥感图像与自然图像在成像机制和拍摄角度上的差异，导致现有方法在遥感领域的应用效果不佳。此外，构建过程中缺乏大规模对齐的图像文本数据集，现有的遥感数据集多集中在视觉识别任务，缺乏语言标注。RSICap通过提供详细的人工标注描述，解决了这些挑战，但其扩展和多样性仍需进一步增强。

常用场景

经典使用场景

RSICap数据集在遥感领域中被广泛用于训练和评估视觉语言模型（VLMs）。其经典使用场景包括图像描述生成和视觉问答任务。通过提供详细的图像描述，RSICap使模型能够学习从遥感图像中提取丰富的语义信息，从而生成高质量的描述文本。此外，该数据集还支持视觉问答任务，模型需要根据图像内容回答复杂的问题，这要求模型具备强大的视觉理解和推理能力。

衍生相关工作

基于RSICap数据集，研究者们开发了多种先进的视觉语言模型，如RSGPT。这些模型在多个遥感数据集上展示了优越的性能，推动了遥感图像理解和多模态学习的研究进展。此外，RSICap还激发了其他相关数据集的创建，如RSIEval，进一步丰富了遥感领域的研究资源。这些工作不仅提升了模型的性能，还为未来的研究提供了新的方向和挑战。

数据集最近研究