RS5M

arXiv2024-01-02 更新2024-07-31 收录

下载链接：

https://github.com/om-ai-lab/RS5M

下载链接

链接失效反馈

官方服务：

资源简介：

RS5M是一个包含500万张遥感图像及其英文描述的大规模遥感图像-文本配对数据集，通过过滤公开的图像-文本配对数据集和使用预训练的视觉语言模型为仅含标签的遥感数据集添加描述而获得。

RS5M is a large-scale remote sensing image-text paired dataset consisting of 5 million remote sensing images and their corresponding English descriptions. It is obtained by filtering publicly accessible image-text paired datasets and adding descriptions to label-only remote sensing datasets using pre-trained vision-language models.

创建时间：

2023-06-20

原始信息汇总

RS5M 和 GeoRSCLIP 数据集概述

RS5M 数据集

概述

RS5M 是一个大规模的遥感图像-文本配对数据集，包含 500 万张遥感图像及其英文描述。该数据集通过筛选公开可用的图像-文本配对数据集和使用预训练的视觉-语言模型（VLM）对仅标签的遥感数据集进行标注而获得。这是首个大规模的遥感图像-文本配对数据集。

数据集组成

数据来源：公开可用的图像-文本配对数据集和仅标签的遥感数据集。
数据处理：使用预训练的 VLM 进行标注。
数据规模：500 万张遥感图像及其英文描述。

应用

用于微调 CLIP 模型和尝试多种参数高效微调方法（Parameter-Efficient Fine-Tuning）。
实验结果表明，该数据集在零样本分类（Zero-shot Classification, ZSC）、遥感跨模态文本-图像检索（Remote Sensing Cross-Modal Text–Image Retrieval, RSCTIR）和语义定位（Semantic Localization, SeLo）等任务中表现出色。

GeoRSCLIP 模型

概述

GeoRSCLIP 是一个针对遥感领域的视觉-语言基础模型，基于 CLIP 模型进行微调，使用 RS5M 数据集进行训练。

安装

需要安装 PyTorch 和其他依赖库。
安装命令： bash pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118 pip install pillow pandas scikit-learn ftfy tqdm matplotlib transformers adapter-transformers open_clip_torch pycocotools timm clip-benchmark torch-rs

使用

克隆模型仓库并解压测试数据。
运行推理脚本进行模型推理。

实验结果

在多个遥感任务中，GeoRSCLIP 模型相较于基准模型或先前的最先进模型有显著提升，具体提升幅度如下：
- 零样本分类（ZSC）任务：3% ～ 20%
- 遥感跨模态文本-图像检索（RSCTIR）任务：3% ～ 6%
- 语义定位（SeLo）任务：4% ～ 5%

数据集下载

RS5M 数据集

数据集大小：约 500GB，包含 128 个 webdataset tar 文件。
下载链接：
- Dropbox: 链接
- 百度网盘: 链接，密码：41y2

数据集使用

推荐使用 webdataset 格式文件进行数据读取。
也可以使用纯图像文件和元文件进行数据读取。

数据集统计信息

PUB11 子集

数据来源：多个公开数据集（LAION2B、COYO700M、LAIONCOCO 等）。
数据处理：经过关键词过滤、图像下载、无效图像移除、重复图像移除和异常图像移除等步骤。
最终数据量：3,007,809 张图像。

RS3 子集

数据来源：FMoW、BigEarthNet、MillionAID。
数据量：2,062,377 张图像。

地理统计信息

包含 UTM 区域、纬度和经度信息。
使用 NER 从文本描述中提取地理实体信息。

参考文献

@misc{zhang2023rs5m, title={RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model}, author={Zilun Zhang and Tiancheng Zhao and Yulong Guo and Jianwei Yin}, year={2023}, eprint={2306.11300}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

RS5M 数据集的构建主要通过两个来源：首先，从 11 个公开的大型图像-文本配对数据集中筛选出与遥感相关的图像-文本对；其次，利用预训练的视觉-语言模型和遥感图像检测器去除非遥感图像。然后，使用 BLIP2 模型为 3 个仅包含类别标签的大型遥感数据集生成描述性标题。最后，将两个来源的结果合并。数据集中包含了 500 万个遥感图像及其英文描述。

特点

RS5M 数据集具有以下特点：1）大规模：RS5M 数据集是目前最大的遥感图像-文本配对数据集，比现有的最大数据集大近 1000 倍；2）多样性：数据集包含了来自不同地区、不同分辨率和不同类型的遥感图像，以及丰富的文本描述；3）地理信息：数据集包含了图像的地理位置信息，可以用于地理空间人工智能相关的任务。

使用方法

RS5M 数据集可以用于以下任务：1）零样本分类：利用预训练的视觉-语言模型在 RS5M 数据集上进行微调，可以实现对未知类别图像的识别；2）遥感图像检索：利用文本或图像检索与之匹配的图像或文本；3）语义定位：利用文本信息在遥感图像中定位语义相似的区域。

背景与挑战

背景概述

遥感图像在环境监测、城市规划、自然灾害管理等领域发挥着重要作用。然而，遥感图像的快速增长也带来了新的挑战，例如如何有效地处理、分析和理解遥感数据中的信息。尽管深度学习模型在遥感任务中取得了显著进展，但它们的性能往往受限于小规模的标注数据集。遥感图像的解释通常需要领域专业知识，导致遥感图像标注成本高昂，成为遥感下游任务进一步改进的瓶颈。文本信息，作为遥感图像的自然监督，具有巨大的潜力，可以帮助学习更好的数据表示，并为各种遥感图像模式（如SAR、高光谱和来自不同卫星的图像）提供代理。近年来，深度学习模型在计算机视觉和自然语言处理领域取得了重大进展，研究人员开始探索将视觉和文本模态相结合，以开发更强大、更通用的模型，能够理解多模态内容。预训练视觉语言模型（VLMs）是一种有希望的方法，它利用自然语言的信息化和图像中的丰富视觉信息，作为通用视觉语言模型。一个著名的例子是CLIP，它利用对比损失函数将两种模态连接起来，在许多下游任务和领域转移中表现出前所未有的泛化能力。然而，由于训练时使用的是常见对象数据，VLMs通常在遥感等特定领域表现不佳，因为领域之间存在差异。为了利用通用视觉语言模型（GVLM）在遥感领域的力量，设计一个能够利用GVLM的泛化能力、结合外部领域先验知识，并通过适当的学习范式将知识转移到特定领域的下游任务模型（DTM）的领域预训练视觉语言模型（DVLM）是非常重要的。本文提出了一种新的框架，包括领域预训练视觉语言模型（DVLM），弥合了通用视觉语言模型（GVLM）和特定领域下游任务之间的差距。此外，本文还提出了一个遥感领域的图像-文本配对数据集RS5M，该数据集包含500万张带有英文描述的遥感图像。该数据集是通过过滤公开的图像-文本配对数据集和用预训练VLM对仅含标签的遥感数据集进行描述获得的。这些构成了第一个大规模遥感图像-文本配对数据集。此外，我们对CLIP模型进行了微调，并在RS5M上尝试了几种参数高效微调方法来实现DVLM。实验结果表明，我们提出的模型在各个任务中都非常有效，我们的模型GeoRSCLIP在零样本分类（ZSC）任务中比基线或先前最先进的模型提高了3%到20%，在遥感跨模态文本-图像检索（RSCTIR）中提高了3%到6%，在语义定位（SeLo）任务中提高了4%到5%。数据集和模型已发布在：https://github.com/om-ai-lab/RS5M。

当前挑战

遥感领域图像-文本配对数据集的稀缺性是当前面临的主要挑战之一。尽管已经有一些遥感图像-文本配对数据集，例如UCM Captions、Sydney Captions、RSICD、RSITMD和RSVGD，但它们的样本数量太少，无法有效地迁移或微调大规模预训练VLMs。同时，虽然有一些大规模遥感数据集，例如BigEarthNet、FMoW和MillionAID，但它们只包含类级标签。因此，在遥感领域收集大量领域内数据至关重要。构建RS5M数据集时，我们也面临一些挑战，例如如何有效地过滤大规模图像-文本配对数据集、如何为仅含标签的遥感数据集生成描述性良好的描述，以及如何保证数据质量。此外，在遥感领域，图像通常需要旋转不变特征，因为地面上的目标在被卫星或无人机捕获时通常保持其形状、大小和颜色，但拍摄角度的变化可能会导致目标的旋转。因此，我们需要生成能够准确描述图像内容，而不管拍摄角度如何的描述。最后，我们还需要探索更复杂的DVLMs的性能，并将其应用于其他遥感相关的下游任务，例如变化检测、目标检测、场景分类、语义分割、RSVQA和无人机和卫星图像的地理定位。

常用场景

经典使用场景

RS5M数据集在遥感领域具有广泛的应用场景。其中最经典的使用场景包括：1. 遥感图像场景分类：利用RS5M数据集进行预训练，可以有效提升模型在遥感图像场景分类任务中的性能，例如AID、RESISC45和EuroSAT等数据集上的零样本分类任务。2. 遥感图像跨模态检索：RS5M数据集可以用于训练跨模态检索模型，实现图像和文本之间的有效关联，从而提高遥感图像检索的准确率和召回率。3. 遥感图像语义定位：RS5M数据集可以用于训练语义定位模型，通过文本信息定位遥感图像中语义相关的区域，从而实现弱监督下的目标检测。

衍生相关工作

RS5M数据集的构建和应用推动了遥感领域的研究进展。基于RS5M数据集，研究人员提出了领域预训练视觉-语言模型(DVLM)的概念，并探索了参数高效微调(PEFT)方法在遥感领域中的应用。此外，RS5M数据集还被用于训练生成模型，例如RS-SD，可以生成更逼真的遥感图像，为遥感领域的图像生成任务提供了新的思路。

数据集最近研究