CrossEarth-SAR-200K
收藏arXiv2026-03-12 更新2026-03-14 收录
下载链接:
https://huggingface.co/datasets/conquer997/CrossEarth-SAR-Benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
CrossEarth-SAR-200K是由上海交通大学等机构联合构建的首个十亿级SAR视觉基础模型配套数据集,集成了公开与私有SAR影像资源,包含20万张弱监督与全监督标注图像,覆盖多传感器、多地域的复杂场景。该数据集通过统一标注标准整合了37万私有数据和126万公开数据,支持SAR图像的跨域语义分割任务,旨在解决SAR影像因成像机制差异导致的域偏移问题,为灾害监测、环境管理等应用提供通用化基础模型训练资源。
提供机构:
复旦大学; 上海创新研究院; 上海交通大学; 北京理工大学; 武汉大学; 中关村研究院; 东京大学; 中山大学; 鲁汶大学; 瑞典皇家理工学院
创建时间:
2026-03-12
原始信息汇总
CrossEarth-SAR-Benchmarks 数据集概述
基本信息
- 数据集名称: CrossEarth-SAR-Benchmarks
- 托管平台: Hugging Face Datasets
- 许可证: MIT License
数据描述
- 该数据集详情页面未提供关于数据内容、规模、格式、任务类型或具体用途的详细描述。
文件与访问
- 数据集页面地址:https://huggingface.co/datasets/conquer997/CrossEarth-SAR-Benchmarks
- 根据页面信息,未列出具体的文件结构或数据样本。
搜集汇总
数据集介绍

构建方式
在合成孔径雷达(SAR)领域,跨传感器与跨区域的域偏移问题长期制约着语义分割模型的泛化能力。为应对这一挑战,CrossEarth-SAR-200K数据集通过整合公开与私有SAR影像资源,构建了一个包含20万张图像的大规模弱监督与全监督语义分割数据集。其构建过程融合了多源数据,包括37K私有SAR-光学配对数据、126K公开SAR-光学配对数据以及40K带有真实标注的公开SAR分割数据。针对无标签数据,研究团队采用当前最强的遥感域泛化模型CrossEarth对配对光学影像进行分割,生成伪标签,并通过多模型一致性验证确保标签可靠性。所有影像均经过裁剪或重采样至512×512分辨率,形成覆盖全球109个地区、包含建筑、道路、水体等七类语义标签的统一基准。
特点
CrossEarth-SAR-200K的核心特点在于其规模与多样性。作为首个亿级规模的SAR语义分割数据集,其图像数量超越广泛使用的COCO-Stuff基准,为模型预训练提供了充足的数据支撑。数据集涵盖Sentinel-1、Gaofen-3、TerraSAR-X等多类卫星平台,包含C、X等多个频段及VV、HH等不同极化模式,地理分布横跨六大洲,有效模拟了真实场景中SAR数据源的异质性。这种物理特性与地理范围的广泛覆盖,使得数据集能够深度刻画SAR成像中因传感器参数、成像几何、地物散射机制差异引起的域偏移现象,为构建具有强泛化能力的SAR视觉基础模型奠定了数据基石。
使用方法
该数据集主要用于支持大规模SAR视觉基础模型的持续预训练与域泛化能力评估。在预训练阶段,研究人员可利用全部20万张图像对DINOv2等视觉Transformer骨干网络进行参数优化,通过分割损失与负载均衡损失的联合训练,使模型学习SAR影像的域不变特征表示。下游应用中,冻结预训练好的骨干网络,仅对解码器进行微调,即可在未见过的传感器、区域或极化条件下完成语义分割任务。数据集中专门划分的4K图像验证集(CrossEarth-SAR-200K-Val)可用于监控预训练过程。此外,数据集与论文配套的22个子基准测试套件相结合,为模型在8种复合域偏移场景下的泛化性能提供了系统化评估框架。
背景与挑战
背景概述
合成孔径雷达(SAR)作为一种全天候、全天时的对地观测技术,在全球环境监测、灾害评估和城市管理中发挥着至关重要的作用。然而,SAR图像固有的相干斑噪声、几何畸变以及复杂的电磁散射特性,使得基于SAR的语义分割任务面临严峻挑战。为了突破这一瓶颈,由复旦大学、上海交通大学等机构的研究团队于2026年联合发布了CrossEarth-SAR-200K数据集。该数据集整合了公开与私有来源的SAR影像,构建了包含20万张图像的弱监督与全监督语义分割数据集,旨在支持大规模SAR视觉基础模型的预训练。其核心研究问题是解决SAR图像中因传感器、区域、极化模式等差异导致的严重域偏移,从而推动SAR图像跨域语义分割的泛化能力。该数据集的建立为SAR领域首个十亿级基础模型CrossEarth-SAR的研发提供了关键数据支撑,显著提升了SAR图像理解的鲁棒性与可扩展性,对遥感智能解译领域具有里程碑式的影响。
当前挑战
CrossEarth-SAR-200K数据集致力于解决SAR图像跨域语义分割的泛化难题,其核心挑战在于SAR图像固有的物理特性差异与数据异构性。首先,SAR图像受相干成像机制影响,存在严重的乘性斑噪声,这会破坏局部特征统计与纹理信息,使得依赖纹理模式的模型性能显著下降。其次,侧视几何引入的叠掩、缩短和阴影等空间畸变,改变了地物目标的表观形状与拓扑结构,对基于标准几何先验的模型构成挑战。此外,雷达后向散射测量与光学影像的语义表征存在本质差异,同类地物因表面粗糙度、介电特性等物理条件不同可能呈现迥异的灰度特征,导致严重的语义模糊性。在数据集构建过程中,挑战主要体现在大规模高质量标注数据的匮乏。SAR图像的专业标注依赖领域知识且成本高昂,研究团队通过融合公开数据集并利用最强遥感域泛化模型生成伪标签,以扩充数据规模,但伪标签的置信度与一致性仍需通过多模型共识等方法进行验证与提升。
常用场景
经典使用场景
在合成孔径雷达(SAR)遥感领域,CrossEarth-SAR-200K数据集被广泛应用于跨域语义分割模型的预训练与评估。该数据集整合了来自全球六大洲、覆盖多种传感器、频段和极化模式的SAR影像,构建了首个十亿级SAR视觉基础模型的训练基础。其经典使用场景在于为模型提供大规模、多样化的SAR语义标注数据,以支持模型在未见区域、传感器和成像条件下的泛化能力验证。通过弱监督与全监督数据的结合,该数据集有效模拟了真实世界中SAR数据分布的复杂性,为跨域语义分割研究提供了关键的数据支撑。
实际应用
在实际应用中,CrossEarth-SAR-200K数据集支撑的模型能够服务于全天候、全时段的地球观测任务。例如,在灾害应急响应中,模型可基于SAR影像快速识别洪水淹没区域或地震损毁建筑;在长期环境监测中,可用于土地利用分类、植被覆盖变化检测;在城市规划领域,则能辅助建筑物提取与道路网络分析。该数据集通过提升模型在跨传感器、跨区域场景下的适应性,使得SAR语义分割技术能够更可靠地部署于全球尺度的遥感应用中,为决策提供及时、准确的地理信息。
衍生相关工作
基于CrossEarth-SAR-200K数据集,衍生了一系列重要的研究工作。其中最核心的是CrossEarth-SAR模型,它采用物理引导的稀疏混合专家架构,首次实现了十亿级参数的SAR视觉基础模型。此外,该数据集支撑的基准测试集涵盖了22个子任务,促进了SAR域泛化评估标准的统一。相关研究还包括针对SAR特性的参数高效微调方法(如Earth-Adapter),以及利用伪标签增强弱监督数据质量的策略。这些工作共同推动了SAR语义分割从特定域建模向通用化、可扩展基础模型的范式转变。
以上内容由遇见数据集搜集并总结生成



