five

PhilEO-community/PhilEO-downstream

收藏
Hugging Face2024-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PhilEO-community/PhilEO-downstream
下载链接
链接失效反馈
官方服务:
资源简介:
PhilEO数据集是一个400GB的全球Sentinel-2图像数据集,包含道路、建筑物和土地覆盖的标签,这些是三个下游任务。数据来自全球多个地理多样化的地区,包括丹麦、东非、埃及、几内亚、欧洲、加纳、以色列、日本、尼日利亚、北美、塞内加尔、南美、坦桑尼亚和乌干达。每个地区最多包含200个不同大小的图块,部分地点被重复访问多达3次。数据包含11个波段,分辨率为10米,波段顺序为:0-SCL、1-B02、2-B03、3-B04、4-B08、5-B05、6-B06、7-B07、8-B8A、9-B11和10-B12,其中SCL是场景分类层。数据集由ESA Phi-lab策划,使用MIT许可证。

PhilEO数据集是一个400GB的全球Sentinel-2图像数据集,包含道路、建筑物和土地覆盖的标签,这些是三个下游任务。数据来自全球多个地理多样化的地区,包括丹麦、东非、埃及、几内亚、欧洲、加纳、以色列、日本、尼日利亚、北美、塞内加尔、南美、坦桑尼亚和乌干达。每个地区最多包含200个不同大小的图块,部分地点被重复访问多达3次。数据包含11个波段,分辨率为10米,波段顺序为:0-SCL、1-B02、2-B03、3-B04、4-B08、5-B05、6-B06、7-B07、8-B8A、9-B11和10-B12,其中SCL是场景分类层。数据集由ESA Phi-lab策划,使用MIT许可证。
提供机构:
PhilEO-community
原始信息汇总

数据集: PhilEO Downstream Tasks

数据集描述

PhilEO数据集是一个400GB的Sentinel-2图像全球数据集,包含道路、建筑物和土地覆盖的标签,这些是三个下游任务。数据采样自全球地理多样性区域,包括:丹麦、东非、埃及、几内亚、欧洲、加纳、以色列、日本、尼日利亚、北美、塞内加尔、南美、坦桑尼亚和乌干达。每个地区最多有200个不同大小的瓦片。一些地点被重新访问多达3次。

数据包含11个波段,分辨率为10米,顺序如下:0-SCL, 1-B02, 2-B03, 3-B04, 4-B08, 5-B05, 6-B06, 7-B07, 8-B8A, 9-B11, 和 10-B12,其中SCL是场景分类层。

  • 策划者: ESA Phi-lab
  • 许可证: MIT

用途

该数据集可用于评估任何地球观测基础模型。

引用

Casper Fibaek, Luke Camilleri, Andreas Luyts, Nikolaos Dionelis, 和 Bertrand Le Saux, “PhilEO Bench: Evaluating Geo-Spatial Foundation Models,” arXiv:2401.04464, 2024.

搜集汇总
数据集介绍
main_image_url
构建方式
PhilEO-downstream数据集是由欧洲空间局Phi-lab团队精心构建的一个大规模遥感基准数据集,旨在支持地理空间基础模型的评估。该数据集基于Sentinel-2卫星影像,覆盖全球14个地理多样性区域,包括丹麦、东非、埃及、几内亚、欧洲、加纳、以色列、日本、尼日利亚、北美、塞内加尔、南美、坦桑尼亚和乌干达。每个区域包含多达200个不同尺寸的图块,部分位置被重复采样最多三次,以增强时空多样性。数据集包含11个波段,分辨率为10米,包括场景分类层(SCL)和多个光谱波段,并提供了建筑密度估计、道路分割和土地覆盖分类三个下游任务的标注信息,总数据量达400GB。
特点
该数据集的核心特点在于其全球尺度的地理多样性和多任务标注的综合性。数据来自不同气候、地貌和城市化水平的区域,确保了模型评估的泛化能力。每个样本包含11个光谱波段,支持丰富的遥感分析任务。三个下游任务——建筑密度估计、道路分割和土地覆盖分类——覆盖了从城市基础设施到自然环境的典型应用场景,使得该数据集成为评估地理空间基础模型性能的理想基准。此外,部分区域的时间重复采样为时序分析提供了可能,进一步增强了数据集的实用价值。
使用方法
PhilEO-downstream数据集主要用于评估地理空间基础模型在下游任务中的表现。用户可通过HuggingFace数据集页面直接访问和下载数据,或从Earth on TDL平台获取。数据集以标准格式提供,便于集成到常见的深度学习框架中。使用时,用户需根据任务类型(建筑密度、道路分割或土地覆盖)选择对应的标签数据,并结合Sentinel-2影像进行模型训练或测试。建议参考随附的论文和GitHub代码仓库(PhilEO-Bench)以获取详细的预处理和评估流程,确保结果的可复现性。数据集采用MIT许可证,允许广泛的学术和商业使用。
背景与挑战
背景概述
随着地球观测(EO)基础模型的快速发展,如何系统性地评估这些模型在下游任务中的泛化能力成为领域内的核心挑战。由欧洲空间局(ESA)Phi-lab团队于2024年创建的PhilEO Downstream Tasks数据集,旨在为建筑密度估计、道路分割和土地覆盖分类三大任务提供标准化评测基准。该数据集基于400GB的Sentinel-2卫星影像,覆盖丹麦、东非、埃及等14个地理多样性区域,部分地点包含多达三次的重复观测,从而支持时空泛化研究。其11个波段(含场景分类层)以10米分辨率呈现,为EO基础模型的公平比较与能力诊断提供了关键数据资源,在推动遥感智能分析领域方法论进步中具有里程碑意义。
当前挑战
PhilEO数据集面临的核心挑战首先源于遥感领域固有的复杂性:建筑密度、道路网络与土地覆盖类型在空间形态、尺度与光谱特性上存在显著异质性,要求模型同时具备多任务学习与跨域迁移能力。此外,构建过程中需克服多源标签数据(如OpenStreetMap与全球土地覆盖产品)的精度不一致性,以及不同地理区域间标注标准差异导致的语义歧义。数据采集阶段,Sentinel-2影像受云层覆盖、季节变化与大气条件影响,需通过场景分类层(SCL)进行质量筛选,但部分区域仍存在弱标签噪声。最后,400GB的高维时序数据对存储、加载与批量处理效率提出工程挑战,需设计高效的数据管线以支持大规模基础模型评测。
常用场景
经典使用场景
PhilEO-downstream数据集作为一个专为地理空间基础模型评估而设计的大规模遥感基准,其最经典的使用场景在于对多任务学习框架中的下游任务性能进行标准化评测。该数据集以400GB的Sentinel-2影像为核心,覆盖全球14个地理多样区域,并提供了建筑密度估计、道路分割和土地覆盖分类三类精细标注。研究者通常利用该数据集在统一的10米分辨率11波段输入下,对比不同预训练模型在迁移学习中的表现,从而验证模型对空间特征和光谱信息的泛化能力。尤其是在多任务联合训练场景中,该数据集通过跨区域、跨时相的样本设计,为模型在复杂地理环境下的鲁棒性评估提供了可靠基石。
解决学术问题
该数据集有效解决了地理空间基础模型评估中缺乏标准化、多任务、大尺度基准的学术难题。以往遥感领域的模型评测多局限于单一任务或特定区域,难以全面反映模型在真实世界中的适应能力。PhilEO-downstream通过提供涵盖建筑、道路、土地覆盖三类标签的全球样本,使得研究者能够系统性地探究模型在跨任务知识迁移中的瓶颈,例如不同任务间的梯度冲突与特征共享机制。此外,其包含的多次重访影像为时序稳定性分析提供了可能,推动了遥感基础模型在动态环境下的可重复性研究。这些贡献不仅统一了评测范式,还促进了地理空间人工智能领域从单任务模型向通用智能体的范式转型。
衍生相关工作
基于PhilEO-downstream数据集,学术界已衍生出一系列具有影响力的经典工作。例如,原始论文《PhilEO Bench: Evaluating Geo-Spatial Foundation Models》首次提出了一个包含三个下游任务的统一评估框架,并对比了多种预训练策略对遥感特征提取的影响。后续研究如利用该数据集验证对比学习在遥感图像中的有效性,以及探索视觉Transformer架构在建筑密度估计中的优势。此外,该数据集也被整合进Earth Observation Transfer Learning Database(EOTDL)平台,成为地理空间模型微调的标准测试床。这些衍生工作不仅推动了遥感基础模型的性能突破,还催生了诸如动态任务权重调整、多尺度特征融合等创新方法,进一步巩固了该数据集作为领域内核心基准的地位。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作