five

GeoCrossBench

收藏
arXiv2025-11-05 更新2025-11-06 收录
下载链接:
https://dataverse.harvard.edu/dataverse/geocrossbench/
下载链接
链接失效反馈
官方服务:
资源简介:
GeoCrossBench是一个用于评估遥感基础模型跨带泛化能力的基准数据集,它扩展了流行的GeoBench基准,并包含新的评估协议。该数据集涵盖了Sentinel-2光学/多光谱数据和Sentinel-1SAR数据,专注于场景分类、语义分割和变化检测等遥感任务。数据集由GeoBench数据集融合Sentinel-1SAR数据和其他新的公共数据集组成,数据集融合了Sentinel-2多光谱波段和配准的Sentinel-1SAR波段(VV/VH双极化),以扩展数据集的光谱范围,允许更严格的跨带评估。GeoCrossBench旨在推动更健壮、更通用和更可靠的遥感基础模型的发展。

GeoCrossBench is a benchmark dataset for evaluating cross-band generalization capabilities of remote sensing foundation models, which extends the popular GeoBench benchmark and includes novel evaluation protocols. This dataset covers Sentinel-2 optical/multispectral data and Sentinel-1 SAR data, and focuses on remote sensing tasks such as scene classification, semantic segmentation, and change detection. This dataset is constructed by fusing the GeoBench dataset with Sentinel-1 SAR data and other newly released public datasets. It integrates Sentinel-2 multispectral bands and co-registered Sentinel-1 SAR bands (VV/VH dual polarization) to expand the spectral scope of the dataset, enabling more rigorous cross-band evaluation. GeoCrossBench aims to promote the development of more robust, generalizable, and reliable remote sensing foundation models.
提供机构:
Yerevan State University, YerevaNN, University of British Columbia, Vector Institute
创建时间:
2025-11-05
原始信息汇总

GeoCrossBench Dataverse 数据集概述

数据集基本信息

  • 名称: GeoCrossBench Dataverse
  • 维护机构: YSU, YerevaNN
  • 托管平台: Harvard Dataverse
  • 数据集数量: 9个
  • 文件总数: 1,372个
  • 发布年份: 2025年

数据集描述

GeoCrossBench Dataverse是GeoBench基准数据集的扩展版本,包含配对的 multispectral 和 synthetic aperture radar (SAR) 影像。该资源包含9个精选数据集,涵盖10个下游任务,旨在促进遥感领域的跨模态学习、迁移学习和鲁棒模型评估。

任务类型

  • 变化检测任务: 2个
  • 语义分割任务: 4个
  • 分类任务: 4个

数据集详情

x-sen1floods11

  • 发布日期: 2025年5月22日
  • DOI: https://doi.org/10.7910/DVN/TCTZVL
  • 描述: 全球分布的洪水检测数据集,包含4,831个图像块,每个512×512像素,10米分辨率,覆盖约120,406 km²,涵盖11个洪水事件

x-oscd

  • 发布日期: 2025年5月16日
  • DOI: https://doi.org/10.7910/DVN/1SKOPL
  • 描述: 卫星变化检测数据集,包含24对多光谱图像,来自2015-2018年间的Sentinel-2卫星,覆盖全球多个地区

x-harvey

  • 发布日期: 2025年5月16日
  • DOI: https://doi.org/10.7910/DVN/9L8IE3
  • 描述: 飓风哈维影响数据集,包含469个东部区域和461个西部区域的Sentinel-2图像瓦片

x-bigearthnet

  • 发布日期: 2025年5月16日
  • DOI: https://doi.org/10.7910/DVN/CUZDTR
  • 描述: 大规模遥感多标签土地覆盖分类数据集,包含22,000对配对的Sentinel-1 SAR和Sentinel-2多光谱图像块

x-brick-kiln

  • 发布日期: 2025年5月16日
  • DOI: https://doi.org/10.7910/DVN/ZONNB5
  • 描述: 孟加拉国砖窑检测数据集,包含17,000对配对的Sentinel-2多光谱和Sentinel-1 SAR图像块(64×64像素)

x-cashew-benin

  • 发布日期: 2025年5月15日
  • DOI: https://doi.org/10.7910/DVN/83BCNJ
  • 描述: 贝宁腰果种植园数据集,包含12个光谱波段,覆盖120 km²区域

x-sa-crop-type

  • 发布日期: 2025年5月15日
  • DOI: https://doi.org/10.7910/DVN/ZSQFSJ
  • 描述: 作物类型分类数据集,包含5,000对配对的多光谱和SAR图像块

x-eurosat

  • 发布日期: 2025年5月15日
  • DOI: https://doi.org/10.7910/DVN/6H88JG
  • 描述: 土地利用和土地覆盖分类数据集,包含4,000个标记的地理参考图像对,涵盖10个类别

x-so2sat

  • 发布日期: 2025年5月15日
  • DOI: https://doi.org/10.7910/DVN/F2USNY
  • 描述: 城市土地利用和土地覆盖分类数据集,包含22,000对配对的Sentinel-1和Sentinel-2图像块(32×32像素),标注17个城市类别

技术特征

  • 数据格式: 配对的 multispectral 和 SAR 影像
  • 应用领域: 遥感应用
  • 结构特点: 为深度学习工作流程优化,包含相关元数据和文档

许可信息

  • CC BY 4.0: 5个数据集
  • CC0 1.0: 2个数据集
  • CC BY-SA 4.0: 1个数据集
  • MIT: 1个数据集

学科分类

  • Agricultural Sciences (9个数据集)
  • Computer and Information Science (9个数据集)
  • Earth and Environmental Sciences (9个数据集)

作者信息

  • 主要作者: Barseghyan, Alvard (9个数据集)
  • 作者隶属: https://ror.org/00s8vne50 (8个数据集)
搜集汇总
数据集介绍
main_image_url
构建方式
GeoCrossBench数据集通过整合GeoBench基准数据集并融合Sentinel-1 SAR数据构建而成,同时引入了x-sen1floods11、x-oscd等全新数据集以增强跨波段泛化评估能力。构建过程中采用严格的时空配准技术,将Sentinel-2多光谱数据与同区域的Sentinel-1雷达数据进行像素级融合,形成包含12个波段的统一数据格式。对于缺乏SAR数据的原始数据集,通过Copernicus开放数据平台获取对应时序的雷达影像,并应用对数变换处理复数雷达信号,最终建立起覆盖光学与雷达模态的标准化测试集。
特点
该数据集的核心特征在于其多模态跨波段评估框架,涵盖场景分类、语义分割和变化检测三大遥感核心任务。数据集包含从32×32到512×512的多尺度影像,融合了Sentinel-2的10个多光谱波段与Sentinel-1的VV/VH双极化雷达数据,形成丰富的光学-雷达联合表征。特别设计的三种评估模式——同分布测试、无重叠波段泛化和超集波段泛化,系统性地揭示了模型在不同光谱域间的迁移能力。数据集的地理多样性通过全球范围的样本采集得以保证,为模型泛化性能提供了 rigorous 的验证环境。
使用方法
使用该数据集需遵循其设计的三种评估协议:同分布测试要求在训练与测试阶段采用相同波段组合;无重叠波段泛化需测试模型从光学到雷达等异质模态的迁移能力;超集波段泛化则评估模型处理新增波段时的适应性。对于每个下游任务,需分别训练RGB、全波段S2等基础配置,并在对应测试集上计算场景分类的F1分数与准确率、语义分割的mIOU与bIOU、变化检测的F1分数等指标。建议同时采用全参数微调与冻结主干网络两种训练策略,以全面衡量模型的表征学习与迁移性能。
背景与挑战
背景概述
GeoCrossBench数据集于2025年由埃里温国立大学与Vector Institute等机构联合推出,旨在解决遥感领域中的跨波段泛化难题。随着遥感卫星数量与多样性持续增长,而标注数据主要来源于早期卫星系统,该数据集通过扩展GeoBench基准并融合Sentinel-2多光谱与Sentinel-1合成孔径雷达数据,构建了覆盖场景分类、语义分割与变化检测三大任务的评估体系。其创新性在于首次系统化定义了同分布、无重叠波段与超集波段三类泛化场景,为地球观测基础模型的跨传感器迁移能力建立了标准化测试基准,推动了遥感模型从单一数据适配向多源异构数据泛化的范式转变。
当前挑战
该数据集核心挑战集中于跨模态泛化能力缺失问题。在领域层面,现有模型面临从光学影像向合成孔径雷达等非重叠波段迁移时性能骤降2-4倍的困境,且即使测试时提供额外波段信息,模型性能仍会衰减5-25%,揭示出现有架构对输入通道分布的过拟合现象。在构建过程中,需攻克多源数据时空对齐的技术难点,包括解决原始数据中 Sentinel-2 影像旋转导致的匹配误差,以及针对无时间标注的样本设计像素级相似性检索策略。此外,数据融合需协调不同分辨率与地理背景的遥感资料,确保12波段输入在语义分割与变化检测任务中的时空一致性。
常用场景
经典使用场景
GeoCrossBench作为遥感领域跨波段泛化评估的基准,其经典应用场景聚焦于测试模型在不同光谱配置下的适应能力。该数据集通过整合Sentinel-2多光谱与Sentinel-1合成孔径雷达数据,构建了包含场景分类、语义分割和变化检测三大核心任务的评估框架。研究者在训练阶段使用固定波段组合(如RGB或全波段S2),随后在测试阶段评估模型对非重叠波段或超集波段的处理性能,从而系统量化模型从光学到雷达等异构传感器的知识迁移能力。
解决学术问题
该数据集有效解决了遥感领域模型泛化性评估的空白问题。传统方法常局限于同质波段下的性能优化,而GeoCrossBench通过设计无重叠波段与超集波段评估协议,揭示了现有基础模型在跨传感器迁移中的性能衰减现象。其创新性在于将学术关注点从单一模态精度拓展至多源数据兼容性,为开发具备光谱鲁棒性的模型提供了量化依据,推动了遥感人工智能从专用化向通用化演进的理论探索。
衍生相关工作
该数据集的发布催生了系列创新性研究,其中最具代表性的是基于ChannelViT架构的χViT模型。该工作通过分层通道采样与跨模态预训练策略,在无重叠波段场景下显著优于DINOv3等通用模型。后续研究受其启发,开始探索并行影像数据增强、波段自适应注意力机制等方向,推动了SoftCon、DeCUR等多模态学习方法的演进,并为TerraFM、Galileo等新型基础模型的设计提供了关键评估基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作