Large and Multi-modality Satellite Datasets
收藏github2025-04-27 更新2025-04-28 收录
下载链接:
https://github.com/gh-ming/Large_and_Multi-modality_Satellite_Datasets
下载链接
链接失效反馈官方服务:
资源简介:
随着遥感数据的不断丰富和大模型技术的快速发展,大量用于预训练和图像生成等任务的大规模遥感数据集相继发布。为了便于更好地理解和利用这些数据集,我们整理并总结了目前可用的资源,特别关注全球分布和多模态数据集。
With the continuous enrichment of remote sensing data and the rapid development of large model technology, a large number of large-scale remote sensing datasets for tasks such as pre-training and image generation have been released one after another. To facilitate better understanding and utilization of these datasets, we have curated and summarized the currently available resources, with a particular focus on globally distributed and multimodal datasets.
创建时间:
2025-04-27
原始信息汇总
Large and Multi-modality Satellite Datasets 数据集概述
数据集简介
- 目的:汇总大规模、多模态遥感数据集,用于预训练和图像生成等任务。
- 特点:重点关注全球分布和多模态数据集。
- 状态:内容持续更新中。
数据集列表
BigEarthNet
- 任务:土地利用与土地覆盖 (LULC)
- 时间范围:2017-2018
- 覆盖范围:欧洲
- 模态:光学/SAR
- 数据源:S1/S2
- 体积:100GB
- 分辨率:10m
- 链接:https://bigearth.net/
SEN12MS-CR-TS
- 任务:去云
- 时间范围:2018
- 覆盖范围:全球
- 模态:光学/SAR
- 数据源:S1/S2
- 体积:2TB
- 分辨率:10m
- 链接:https://patricktum.github.io/cloud_removal/sen12mscrts/
MMRS-1M
- 任务:视觉问答 (VQA)
- 模态:多光谱/SAR/文本
- 链接:https://pan.baidu.com/s/1sK9I862tuQfiiFbHBvOOpw?pwd=mycu
RapidAI4EO
- 任务:土地利用与土地覆盖 (LULC)
- 时间范围:2018-2020
- 覆盖范围:欧洲
- 模态:光学
- 数据源:S2/Planet Fusion
- 分辨率:3-10m
- 链接:https://rapidai4eo.source.coop/
fMoW
- 任务:土地利用与土地覆盖 (LULC)
- 时间范围:2002-2017
- 覆盖范围:全球
- 模态:多光谱
- 数据源:QuickBird-2/GeoEye-1/WorldView
- 体积:3.5TB
- 分辨率:0.3-10m
- 链接:
- fMoW-full: s3://spacenet-dataset/Hosted-Datasets/fmow/fmow-full
- fMoW-rgb: s3://spacenet-dataset/Hosted-Datasets/fmow/fmow-rgb
Satlas
- 任务:生成
- 覆盖范围:全球
- 模态:多光谱
- 数据源:S2
- 分辨率:10m
- 链接:https://huggingface.co/allenai/satlas-pretrain
GAIA
- 任务:视觉语言对齐
- 时间范围:1998-2024
- 覆盖范围:全球
- 模态:文本/光学
- 数据量:205,150 image-text pairs
- 分辨率:0.3-10m
- 链接:https://huggingface.co/datasets/azavras/GAIA
Major-TOM
- 任务:土地利用与土地覆盖 (LULC)
- 覆盖范围:全球
- 模态:光学/SAR
- 数据源:S1/S2
- 体积:64TB
- 分辨率:10m
- 链接:https://huggingface.co/Major-TOM
AnySat
- 任务:视觉多模态预训练
- 覆盖范围:全球
- 模态:多光谱/SAR
- 数据源:aerial/spot/s2/alos/l8/modis
- 分辨率:0.2-250m
- 链接:https://github.com/gastruc/AnySat?tab=readme-ov-file
Global-Scale
- 任务:道路提取
- 覆盖范围:全球
- 模态:光学
- 数据源:Google 静态地图
- 体积:32GB
- 分辨率:1m
- 链接:https://pan.baidu.com/s/18HFMWV1VESFxZg25nCH4kw?pwd=fnku#list/path=%2F&parentPath=%2Fsharelink1101928448319-214626418379406
M3LEO
- 任务:视觉多模态预训练
- 覆盖范围:全球
- 模态:多光谱/SAR
EarthView
- 任务:自监督预训练
- 时间范围:2017-2022
- 覆盖范围:全球
- 模态:高光谱/多光谱/SAR
- 数据源:NEON/Sentinel/Satellogic
- 分辨率:0.1m-10m
- 链接:https://huggingface.co/datasets/satellogic/EarthView
搜集汇总
数据集介绍

构建方式
在遥感数据日益丰富和大模型技术快速发展的背景下,Large and Multi-modality Satellite Datasets通过系统整合全球范围内多源异构的遥感数据资源构建而成。该数据集采用结构化表格形式收录了12个具有代表性的遥感数据集,涵盖光学、SAR、多光谱等多种模态,数据来源包括Sentinel系列卫星、商业卫星及开源平台。构建过程中特别注重时空覆盖的广泛性,时间跨度从1998年至2024年,空间范围覆盖全球主要区域,并通过标准化字段(如分辨率、数据量、任务类型)实现跨数据集的可比性。
使用方法
研究人员可通过GitHub页面提供的结构化表格快速定位目标数据集,表格中包含各子集的官方链接、数据模态和空间分辨率等关键元数据。对于预训练任务,推荐使用Satlas或EarthView等包含海量无标注数据的子集;而面向特定应用如道路提取,则可直接调用Global-Scale数据集。数据集支持通过百度网盘、Hugging Face等多样化渠道获取,部分子集如fMoW还提供AWS S3接口。使用多模态数据时,建议参考MMRS-1M子集的范例实现跨模态特征对齐。
背景与挑战
背景概述
随着遥感数据资源的日益丰富和大模型技术的迅猛发展,Large and Multi-modality Satellite Datasets应运而生,旨在为遥感领域的预训练和图像生成等任务提供大规模、多模态的数据支持。该数据集由中国科学院大学的研究人员高华明等人主导整理,汇集了全球范围内分布的光学、SAR、多光谱等多种模态的遥感数据资源。其核心研究问题聚焦于如何利用多源异构遥感数据推动土地覆盖分类、去云处理、视觉问答等下游任务的发展,为遥感智能解译领域提供了重要的数据基础。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,多模态遥感数据的异构性导致特征对齐困难,不同传感器获取的数据在时空分辨率、成像机制等方面存在显著差异,这对模型的跨模态学习能力提出了严峻考验;在构建过程层面,全球尺度遥感数据的采集与标注成本高昂,且受限于云层覆盖、季节变化等因素,数据质量难以保证。此外,如何有效整合来自Sentinel、Planet等不同平台的异构数据,并建立统一的标准化处理流程,亦是数据集构建过程中亟待解决的关键问题。
常用场景
经典使用场景
在遥感领域,Large and Multi-modality Satellite Datasets为研究者提供了丰富的多模态卫星数据资源,广泛应用于土地覆盖分类(LULC)、图像去云、视觉问答(VQA)等任务。例如,BigEarthNet和fMoW数据集因其全球覆盖和高分辨率特性,成为土地覆盖分类研究的基准数据集。SEN12MS-CR-TS则专注于去云任务,为多云地区的遥感图像处理提供了重要支持。
解决学术问题
该数据集解决了遥感领域多模态数据融合、大规模预训练和跨模态对齐等关键学术问题。通过整合光学、SAR和多光谱数据,研究者能够更全面地分析地表特征,提升模型的泛化能力。例如,GAIA数据集通过图像-文本对齐,推动了视觉语言模型在遥感中的应用,而AnySat和M3LEO则为多模态预训练提供了丰富的数据基础。
实际应用
在实际应用中,这些数据集支持了农业监测、城市规划、灾害评估等多个领域。例如,RapidAI4EO和Major-TOM数据集的高分辨率光学数据可用于精准农业和城市扩张分析。Global-Scale数据集的道路提取功能则为交通规划和导航系统提供了重要数据支持。
数据集最近研究
最新研究方向
随着遥感技术与人工智能的深度融合,Large and Multi-modality Satellite Datasets正推动多模态遥感智能解译的前沿探索。当前研究聚焦于跨模态预训练框架构建,如AnySat和M3LEO数据集通过融合光学、SAR及多光谱数据,为自监督学习提供异构信息互补的基准平台。全球覆盖的GAIA数据集则开辟了视觉-语言对齐新方向,支撑遥感图像描述生成与跨模态检索任务。在应用层面,SEN12MS-CR-TS引领的云噪声去除技术显著提升了多云地区影像可用性,而Satlas等生成式数据集正推动基于扩散模型的遥感图像合成研究。这些大规模数据集不仅解决了传统遥感样本稀缺的瓶颈,更为气候变化监测、灾害评估等全球性议题提供了数据驱动的分析范式。
以上内容由遇见数据集搜集并总结生成



