jonathan-roberts1/SATIN
收藏Hugging Face2024-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jonathan-roberts1/SATIN
下载链接
链接失效反馈官方服务:
资源简介:
SATIN(SATellite ImageNet)是一个包含27个卫星和航空图像数据集的元数据集,涵盖了6个不同的任务:土地覆盖、土地利用、分层土地利用、复杂场景、稀有场景和假彩色场景。数据集中的图像分布在全球范围内,分辨率跨越5个数量级,包含超过250个不同的类别标签。该数据集在ICCV 23 TNGCV研讨会上发布。
SATIN (SATellite ImageNet) is a meta-dataset comprising 27 satellite and aerial image datasets, covering six distinct tasks: land cover, land use, hierarchical land use, complex scenes, rare scenes, and false-color scenes. The images in the dataset are globally distributed, with resolutions spanning five orders of magnitude, and contain over 250 distinct category labels. This dataset was released at the ICCV 23 TNGCV workshop.
提供机构:
jonathan-roberts1
原始信息汇总
数据集概述
数据集名称: SATIN (SATellite ImageNet)
数据集类型: 卫星和航空图像
任务类别:
- 图像分类
- 零样本图像分类
数据集大小: 100K<n<1M
语言: 英语
数据集结构
SATIN包含27个卫星和航空图像数据集,分为6个任务类别:
-
任务1: 地表覆盖
- SAT-4
- SAT-6
- NASC-TG2
-
任务2: 土地利用
- WHU-RS19
- RSSCN7
- RS_C11
- SIRI-WHU
- EuroSAT
- NWPU-RESISC45
- PatternNet
- RSD46-WHU
- GID
- CLRS
- Optimal-31
-
任务3: 分层土地利用
- Million-AID
- RSI-CB256
-
任务4: 复杂场景
- UC_Merced_LandUse_MultiLabel
- MLRSNet
- MultiScene
- AID_MultiLabel
-
任务5: 罕见场景
- Airbus-Wind-Turbines-Patches
- USTC_SmokeRS
- Canadian_Cropland
- Ships-In-Satellite-Imagery
- Satellite-Images-of-Hurricane-Damage
-
任务6: 假彩色场景
- Brazilian_Coffee_Scenes
- Brazilian_Cerrado-Savanna_Scenes
数据集使用示例
python from datasets import load_dataset
hf_dataset = load_dataset(jonathan-roberts1/SATIN, DATASET_NAME, split=train) # 使用上述配置之一(例如EuroSAT)作为DATASET_NAME features = hf_dataset.features class_labels = features[label].names
random_index = 5 example = hf_dataset[random_index] image, label = example[image], example[label]
数据集许可证
SATIN由多个具有不同许可证的数据集组成,因此没有单一的许可证。所有数据集均可用于研究目的,具体使用信息请参阅论文附录。
搜集汇总
数据集介绍

构建方式
在遥感影像分析领域,构建一个全面且多样化的数据集对于推动模型泛化能力至关重要。SATIN数据集通过整合27个现有的卫星与航空影像数据集,形成了一个元数据集,覆盖了土地覆盖、土地利用、层次化土地利用、复杂场景、稀有场景及假彩色场景等六类任务。其构建过程并非重新采集数据,而是对现有资源进行系统化梳理与标准化,确保影像在全球范围内分布,分辨率跨越五个数量级,视场尺寸多样,并包含超过250个独特类别标签。这种集成策略不仅保留了原始数据集的特性,还通过统一接口简化了多任务学习的访问流程。
使用方法
使用SATIN数据集时,研究人员可通过HuggingFace的datasets库便捷加载特定配置。每个子数据集作为一个独立配置提供,用户只需指定数据集名称(如EuroSAT)和训练分割,即可获取影像及其对应标签。对于复杂场景数据集,标签以多标签形式存储;层次化土地利用数据集则使用多个标签字段(如label_1、label_2)表示层级结构。加载后,数据以标准图像和标签格式呈现,便于直接集成到现有计算机视觉流程中,支持图像分类和零样本图像分类等任务的模型训练与评估,同时避免了下载整个元数据集的存储负担。
背景与挑战
背景概述
遥感影像智能解译是地理信息科学与计算机视觉交叉领域的前沿研究方向,旨在通过自动化技术从海量对地观测数据中提取有价值的地表信息。SATIN(SATellite ImageNet)作为一项里程碑式的元数据集,由Jonathan Roberts、Kai Han和Samuel Albanie等学者于2023年构建,并在ICCV会议TNGCV研讨会上正式发布。该数据集创新性地整合了27个现有卫星与航空影像数据集,涵盖土地覆盖、土地利用、层级土地利用、复杂场景、稀有场景及假彩色场景六大任务范畴,影像分辨率跨越五个数量级,包含超过250个类别标签,其核心研究目标在于构建一个统一、多元的基准测试平台,以系统评估视觉-语言模型在遥感影像分类任务中的泛化能力与适应性,为多模态地理空间人工智能的发展提供了关键数据支撑。
当前挑战
在遥感影像分类领域,模型需应对因成像条件、传感器差异、季节变化及地域多样性所导致的巨大类内差异与类间相似性挑战,同时还需处理罕见地物类别样本稀缺、多标签场景语义复杂以及跨任务知识迁移困难等问题。SATIN数据集在构建过程中,面临多重技术挑战:其一,需对来源各异、标注标准不一的原始数据集进行系统性整合与规范化,确保数据格式、坐标系统及类别体系的一致性;其二,在维持各数据集原有任务特性的基础上,设计合理的元数据集架构以支持多任务评估框架;其三,需协调不同数据集的许可协议,并妥善处理涉及全球范围影像的数据版权与伦理合规性问题。这些挑战共同凸显了构建大规模、标准化遥感基准数据集的复杂性与必要性。
常用场景
经典使用场景
在遥感影像分析领域,SATIN数据集作为多任务元数据集,其经典使用场景集中于评估和训练视觉-语言模型在卫星图像分类任务中的泛化能力。通过整合27个子数据集,涵盖土地覆盖、土地利用、复杂场景等六类任务,该数据集为研究者提供了一个统一的基准平台,用于测试模型在不同分辨率、地理分布和类别标签下的性能表现,尤其在零样本图像分类任务中展现出重要价值。
解决学术问题
SATIN数据集有效解决了遥感影像分类中模型泛化性不足的学术难题。传统方法往往受限于单一数据集或特定任务,难以适应全球多样化的地理环境和复杂的语义层次。该数据集通过融合多源异构数据,促进了跨任务、跨域的分类研究,为探索视觉-语言模型在遥感领域的适应性提供了关键支撑,推动了计算机视觉与地球科学交叉学科的理论进展。
实际应用
在实际应用中,SATIN数据集支持了环境监测、城市规划、灾害评估等多个领域。例如,在土地覆盖分类任务中,模型可辅助识别森林、农田等地表类型,服务于生态保护;在罕见场景检测中,如飓风损害或船舶识别,能提升应急响应效率。其全球分布的数据特性使得模型能够适应不同地区的遥感分析需求,为政府和机构提供可靠的决策依据。
数据集最近研究
最新研究方向
在遥感影像分析领域,SATIN作为一个集成27个子数据集的多任务元数据集,正推动着视觉-语言模型在卫星图像分类中的前沿探索。其涵盖土地覆盖、土地利用、复杂场景及罕见场景等六类任务,为模型提供了跨分辨率、多视角的全球分布图像数据。当前研究热点聚焦于利用该数据集训练通用视觉-语言模型,以提升模型在零样本和少样本场景下的泛化能力,并探索层次化标签结构与多标签分类的联合优化。这些进展不仅加速了遥感影像自动解译技术的革新,也为灾害监测、农业评估及环境管理等实际应用提供了更稳健的算法基础。
以上内容由遇见数据集搜集并总结生成



