five

WorldStrat数据集

收藏
arXiv2022-07-13 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/6810792
下载链接
链接失效反馈
官方服务:
资源简介:
WorldStrat数据集是由欧洲航天局Phi实验室支持创建的,旨在解决高分辨率卫星图像难以获取和成本高昂的问题。该数据集包含近10,000平方公里独特地点的数据,覆盖从农业到冰盖,从森林到多种城市化密度的各种土地利用类型。数据集特别关注通常在机器学习数据集中代表性不足的地点,如人道主义兴趣点、非法采矿地点和风险人群定居点。每个高分辨率图像都与来自Sentinel-2卫星的多个低分辨率图像配对,以支持多帧超分辨率算法的开发。此外,数据集还附带一个开源Python包,用于重建或扩展WorldStrat数据集,训练和推断基准算法,并提供丰富的教程,所有这些都与流行的EO-learn工具箱兼容。

The WorldStrat dataset was developed with support from the European Space Agency’s Phi Lab, aiming to address the challenges of limited accessibility and high costs associated with high-resolution satellite imagery. This dataset contains data for unique locations spanning nearly 10,000 square kilometers, covering a wide range of land use types ranging from agriculture and ice sheets to forests and areas with varying levels of urbanization. It specifically focuses on locations that are typically underrepresented in machine learning datasets, such as humanitarian interest sites, illegal mining locations, and settlements of at-risk populations. Each high-resolution image is paired with multiple low-resolution images from the Sentinel-2 satellite to support the development of multi-frame super-resolution algorithms. Additionally, the dataset comes with an open-source Python package that enables reconstruction or expansion of the WorldStrat dataset, training and inference of benchmark algorithms, and provides comprehensive tutorials, all compatible with the popular EO-learn toolbox.
提供机构:
欧洲航天局Phi实验室
创建时间:
2022-07-13
搜集汇总
数据集介绍
main_image_url
构建方式
在遥感影像分析领域,构建具有全球代表性的高分辨率数据集面临成本与覆盖范围的挑战。WorldStrat数据集通过分层抽样策略系统性地采集了全球近10,000平方公里的独特区域。其构建过程首先依据ESA CCI土地覆盖产品的IPCC分类体系,对非居住区域进行立方根重要性抽样,确保从农业到冰盖等各类地物均衡呈现。针对城市区域,则采用全球人类住区层SMOD产品进行嵌套分层,按人口密度梯度采样。此外,数据集特别纳入联合国难民署、国际特赦组织等机构提供的人道主义关注点、非法采矿点等传统机器学习数据集中代表性不足的区域。每个兴趣点配备单次SPOT 6/7高分辨率影像(1.5米/像素)与16个时间匹配的Sentinel-2低分辨率重访影像(10米/像素),形成时空对齐的多分辨率数据对。
特点
该数据集的核心特征体现在其前所未有的全球覆盖广度与地物多样性。作为目前公开规模最大、种类最丰富的高分辨率卫星影像数据集,其涵盖4000个独立地理位置,通过科学的分层设计实现了对全球土地类型的均衡表征。数据集创新性地整合了多源标注信息,包括基于IPCC分类体系的土地用途标签和基于SMOD产品的城市密度分级,为跨领域研究提供丰富的语义上下文。时空对齐的多分辨率架构构成其另一显著特点,每个高分辨率影像均配有时序匹配的多个低分辨率观测,为多帧超分辨率等时序分析任务奠定基础。特别值得关注的是,数据集突破了传统遥感数据集的地理偏见,系统收录了人道主义敏感区域和边缘化聚居地等特殊场景,为公平性机器学习研究提供了关键素材。
使用方法
该数据集配备了完整的开源软件生态,用户可通过集成EO-learn工具箱的Python软件包进行高效访问与扩展。典型应用流程始于数据加载阶段,利用提供的PyTorch Lightning标准化接口可快速构建训练管道,其缓存机制使单GPU在30分钟内即可完成HighResNet模型训练。针对超分辨率研究,数据集提供三种基准模型架构及预训练权重,支持从多帧低分辨率输入重建高分辨率影像的任务验证。研究人员可通过附带的教程笔记本复现数据采集流程,利用相同的分层抽样方法扩展新的地理区域。对于高级应用,数据集的时间戳与地理坐标支持与OpenStreetMap等外部数据源的交叉引用,便于开展建筑物提取、地物分类等衍生研究。所有数据均提供原始与正射校正双版本,满足不同精度需求的实验设计。
背景与挑战
背景概述
WorldStrat数据集于2022年由伦敦大学学院、牛津大学及Why How Ltd的研究团队联合创建,并得到欧洲空间局Phi-Lab的资助。该数据集旨在解决高分辨率卫星影像获取成本高昂且代表性不足的核心问题,通过精心策划覆盖全球近10,000平方公里的多样化地表类型,包括农业、森林、冰盖及不同密度的城市化区域。特别值得关注的是,数据集纳入了人道主义关注点、非法采矿点及难民定居点等传统机器学习数据集中常被忽视的区域。其高分辨率影像来自空客SPOT 6/7卫星(最高1.5米/像素),并与多时相哨兵2号低分辨率影像(10米/像素)进行时间匹配,为多帧超分辨率等任务提供了重要基础。WorldStrat通过分层抽样策略确保了地理与语义上的广泛代表性,显著推动了卫星影像与机器学习交叉领域的研究,尤其在促进全球公平性及可访问性方面具有深远影响。
当前挑战
WorldStrat数据集致力于解决卫星影像超分辨率领域的核心挑战,即如何从免费的低分辨率哨兵2号影像中重建出接近昂贵高分辨率影像的分析能力。这一任务面临多重困难:低分辨率影像中存在云层遮挡、大气干扰及时间不一致性,而高分辨率影像则受限于有限的时空覆盖与高昂成本。在构建过程中,研究团队需克服数据获取与匹配的复杂性:首先,高分辨率影像的采集依赖于空客SPOT卫星的既有任务记录,导致某些区域可能无法覆盖;其次,为实现低分辨率与高分辨率影像的时间对齐,需在哨兵2号频繁重访与SPOT单次访问之间进行精准匹配,同时避免引入选择偏差。此外,数据集的分层抽样设计需平衡全球地表类型的代表性,特别是对罕见类别(如冰盖、非正式定居点)的充分采样,这要求复杂的统计策略与领域知识整合。这些挑战共同塑造了数据集的独特价值与应用边界。
常用场景
经典使用场景
在遥感影像分析领域,WorldStrat数据集最经典的应用场景在于多帧超分辨率算法的训练与评估。该数据集通过精心配对的1.5米/像素高分辨率SPOT影像与10米/像素低分辨率Sentinel-2多时相影像,构建了大规模、多样化的训练样本库。研究者可利用其时空匹配特性,开发能够从免费低分辨率影像中重建高分辨率细节的深度学习模型,突破高分辨率影像获取成本高昂的技术瓶颈。
实际应用
该数据集的实际应用价值体现在多个地球观测领域:在环境监测中,支持基于Sentinel-2时序数据的冰川消融精细化监测;在可持续发展领域,赋能城市扩张动态分析与人居环境评估;在灾害响应方面,为冲突地区建筑损毁识别提供高分辨率参考基准;在农业遥感中,助力作物分类精度的提升。其开源工具链更降低了卫星影像分析的技术门槛,使非营利组织和研究机构能够基于免费低分辨率数据开展高精度地理分析。
衍生相关工作
WorldStrat数据集催生了系列创新性研究:在算法层面,推动了多帧超分辨率架构如改进型HighRes-Net与多光谱融合网络的发展;在方法论上,启发了基于语义分层的遥感样本均衡采样理论;在应用生态中,衍生出联合国难民署定居点监测、亚马逊雨林非法开采识别等专项研究。其配套的EO-Learn插件更成为遥感机器学习流程标准化的重要工具,促进了ESA Kelvins PROBA-V等同类数据集的算法迁移与比较研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作