Sentinel2Cap

Name: Sentinel2Cap
Creator: 巴黎大学·LIPADE实验室; 法国航空航天研究院; 索邦大学·LCQB实验室; 德国航空航天中心
Published: 2026-05-05 06:16:11
License: 暂无描述

arXiv2026-05-05 更新2026-05-08 收录

下载链接：

https://github.com/LucreziaT/Sentinel2Cap

下载链接

链接失效反馈

官方服务：

资源简介：

Sentinel2Cap是由欧洲多国研究机构联合构建的多模态遥感图像描述数据集，包含12,000组Sentinel-1 SAR与Sentinel-2多光谱图像的配对数据，空间分辨率覆盖10-20米。数据集精选自reBEN基准库，通过人工标注确保语义准确性和语言质量，每幅图像配备专业描述文本。其创新性体现在同时整合SAR伪RGB、多光谱和光学三种模态，并采用地理分割策略避免样本重叠。该数据集主要服务于计算机视觉与遥感交叉领域，旨在推动多模态场景理解模型在中等分辨率对地观测任务中的发展，解决现有数据集中自动标注不精确、模态单一等局限性问题。

Sentinel2Cap is a multimodal remote sensing image captioning dataset jointly developed by research institutions across multiple European countries. It includes 12,000 paired samples of Sentinel-1 SAR and Sentinel-2 multispectral imagery, with spatial resolutions ranging from 10 to 20 meters. Curated from the reBEN benchmark repository, this dataset ensures semantic accuracy and linguistic quality via manual annotation, with each image accompanied by professional descriptive captions. Its core innovation lies in integrating three modalities: SAR pseudo-RGB, multispectral, and optical imagery, while adopting a geographic segmentation strategy to prevent sample overlap. Targeting the interdisciplinary field of computer vision and remote sensing, this dataset aims to promote the advancement of multimodal scene understanding models in moderate-resolution Earth observation tasks, and resolve the limitations of existing datasets such as imprecise automatic annotation and single-modality constraints.

提供机构：

巴黎大学·LIPADE实验室; 法国航空航天研究院; 索邦大学·LCQB实验室; 德国航空航天中心

创建时间：

2026-05-05

原始信息汇总

好的，根据您提供的README文件内容，以下是关于Sentinel2Cap数据集的详细概述。

Sentinel2Cap 数据集概述

Sentinel2Cap 是一个专注于遥感图像描述的数据集，包含了人工标注和由大模型自动生成的图像描述（文字说明）。

核心数据文件

Sentinel2Cap.zip: 包含 12,000 条人工标注的描述文本。这些描述与哨兵系列卫星影像相关联，影像类型包括：
- Sentinel-2 RGB 图像
- Sentinel-2 多光谱图像
- Sentinel-1 SAR 图像（以伪 RGB 形式表示）

Sentinel2Cap.parquet: 结构化元数据文件，包含每个数据样本的详细信息。主要字段如下：

字段名	描述
`key`	样本唯一标识符
`image_index`	图像索引
`number_of_classes`	类别数量
`number_of_classes_30`	30m分辨率下的类别数量
`file_name`	文件名
`path_to_S2`	Sentinel-2 影像路径
`path_to_SM`	参考地图路径
`set`	数据集划分 (train/val/test)
`used`	是否被使用
`month`	影像获取月份
`occurrences`	出现次数
`s1_name`	关联的Sentinel-1影像名称

数据来源与信息整合

该数据集整合了以下多源遥感信息：

Sentinel-2 影像（RGB 和多光谱）
Sentinel-1 影像（SAR）
参考土地覆盖地图

模型生成输出

Qwen3-VL-8B-Instruct: 该文件包含了使用 Qwen3-VL-8B-Instruct 模型进行的两项研究产出。主要区别在于生成描述时采用的 提示词策略 不同。
- 用途: 可用于比较不同提示策略的效果，以及对生成描述进行定性和定量分析。

许可证

数据集 (Sentinel2Cap): MIT 许可证
代码: CC BY 4.0 许可证

搜集汇总

数据集介绍

构建方式

Sentinel2Cap数据集基于Refined BigEarthNet (reBEN)构建，从中精选了12,000对Sentinel-1 SAR与Sentinel-2多光谱影像，空间分辨率为10米和20米。影像覆盖欧洲多国，选取时优先考虑包含多种土地覆盖类别的场景，并以高斯分布控制每幅影像的类别数量，排除单类图像以提升描述丰富性。所有描述由5至6名专业标注员手动撰写，严格遵循包含色彩、形状及空间关系的指南，每幅影像平均耗时20至25分钟。标注后经过质量保证与质量控制流程，包括人工内容审查、语法校对及自动拼写校验，确保语义准确与语言质量。

特点

Sentinel2Cap的独特性在于它是首个在中分辨率下提供人工标注、且以SAR与光学影像联合对齐的多模态遥感图像描述数据集。其描述聚焦于土地利用、空间布局与视觉特征，兼具语义精确性与语言自然度。数据集通过控制每幅影像的类别分布，有效平衡描述复杂度，避免偏向过于简单或高度混杂的场景。相较于现有数据集，Sentinel2Cap实现了多模态数据的统一配对与高质量人工描述，弥补了中分辨率遥感领域缺乏此类资源的空白，尤其为SAR影像的跨模态理解提供了重要基准。

使用方法

该数据集适用于遥感图像描述的模型训练与评估，尤其适合多模态场景下的零样本或微调实验。使用时可按需要选择光学RGB、多光谱或SAR伪RGB三种模态作为输入，配合基础提示或模态特定提示（提供卫星类型与通道信息）引导视觉语言模型生成描述。数据已在GitHub公开，可直接用于监督学习，也可扩展至遥感视觉问答等下游任务，例如将生成的描述作为大语言模型的上下文信息提升问答性能。研究人员还可基于其多模态对齐特性探索融合SAR与光学信息的描述生成策略。

背景与挑战

背景概述

随着遥感影像解译需求的日益增长，图像描述任务从自然图像领域延伸至地球观测，旨在自动生成对场景语义的自然语言描述。由Lucrezia Tosato等人于2026年创建的Sentinel2Cap数据集，是基于Refined BigEarthNet构建的多模态遥感图像描述基准，汇聚了Sentinel-1 SAR与Sentinel-2多光谱影像，空间分辨率覆盖10米至20米，涵盖欧洲多类土地覆盖类型。其核心研究问题在于为缺乏人工标注的多模态中分辨率遥感数据提供高质量的语义描述资源，填补了现有数据集在人工标注、SAR-光学联合描述与中等空间分辨率上的空白。该数据集的发布标志着遥感图像描述领域向多模态、高品质人工标注方向迈出了重要一步，为跨模态场景理解与基础模型评估奠定了坚实的数据基础。

当前挑战

Sentinel2Cap面对的首要挑战在于领域复杂性：遥感图像描述需处理其他视角、空间尺度剧烈变化及地物复杂空间构型，这与自然图像描述任务显著不同。尤其SAR影像依赖物理后向散射而非光学颜色与纹理，视觉语言模型难以直接从伪RGB表达中提取语义。构建过程中，研究者需在约550,000对影像中筛选12,000个多类别样本来平衡类别分布，并排除单类别图像以提升描述信息量。此外，人工标注团队每幅影像平均花费20至25分钟进行精细描述，并通过质量保证与质量控制流程确保语义精准与语言规范。最终面对的是中分辨率SAR与光学多光谱数据在零样本场景下表现不佳的挑战，尤其是SAR在BLEU-4等指标上近乎为零，加剧了多模态对齐的难度。

常用场景

经典使用场景

在遥感图像描述生成领域，Sentinel2Cap 数据集最经典的用途在于为多模态卫星影像（包括 Sentinel-1 SAR 和 Sentinel-2 多光谱图像）提供人工标注的高质量文本描述。研究者可利用该数据集训练和评估视觉语言模型在中等分辨率下的跨模态场景理解能力，推动从光学 RGB 到 SAR 伪彩色影像的语义桥梁构建。

解决学术问题

该数据集填补了现有遥感描述数据集中于高分辨率光学影像、缺乏 SAR 与光学联合人工标注的关键空白。它解决了视觉语言模型在 SAR 图像上描述能力薄弱、多模态对齐困难等学术挑战，并通过对类分布进行精心控制，降低了模型对单一类别场景的过拟合风险，为研究跨传感器语义迁移提供了可靠基准。

衍生相关工作

基于 Sentinel2Cap 衍生的工作包括细粒度遥感视觉问答（RSVQA）系统的开发，其高质量描述被作为上下文提示注入大语言模型以增强推理能力。此外，多模态融合策略研究将 SAR 与光学的互补信息结合，显著提升描述生成质量，同时推动了面向中等分辨率卫星数据的零样本与少样本学习范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集