five

M3LEO

收藏
arXiv2024-06-07 更新2024-06-17 收录
下载链接:
https://huggingface.co/M3LEO
下载链接
链接失效反馈
官方服务:
资源简介:
M3LEO是由剑桥大学等多个机构合作创建的多模态、多标签地球观测数据集,包含来自Sentinel-1的极化、干涉和相干SAR数据以及Sentinel-2的RGB图像。数据集覆盖17.5TB,包含约1000万个4x4公里的数据芯片,分布在六个不同的地理区域。创建过程涉及复杂的数据处理和参数选择,以确保数据兼容机器学习管道。M3LEO的应用领域广泛,包括自然灾害管理、环境监测和城市规划等,旨在解决传统光学传感器在恶劣天气和夜间无法有效工作的问题。

M3LEO is a multimodal, multi-label Earth observation dataset developed through collaboration between the University of Cambridge and multiple other institutions. It includes polarimetric, interferometric and coherent SAR data from Sentinel-1, as well as RGB imagery from Sentinel-2. The dataset has a total size of 17.5 TB, containing approximately 10 million 4x4 km data chips distributed across six distinct geographic regions. Its development involves sophisticated data processing and parameter tuning to ensure compatibility with machine learning pipelines. M3LEO covers a wide range of application fields including natural disaster management, environmental monitoring and urban planning, and it aims to address the limitation that conventional optical sensors cannot operate effectively under adverse weather conditions and during nighttime.
提供机构:
剑桥大学
创建时间:
2024-06-07
搜集汇总
数据集介绍
main_image_url
构建方式
M3LEO数据集的构建方式体现了多模态、多标签地球观测数据的集成。该数据集整合了来自Sentinel-1的极化、干涉和相干合成孔径雷达(SAR)数据,以及Sentinel-2的RGB图像数据。数据集覆盖了六个多样化的地理区域,总面积达17.5TB,包含约1000万个4x4公里的数据块。构建过程中,数据被预处理为机器学习可读的格式,并通过灵活的PyTorch Lightning框架进行配置管理,确保了数据在不同机器学习应用中的无缝集成。
特点
M3LEO数据集的主要特点在于其多模态和多标签的特性,涵盖了极化、干涉和相干SAR数据以及RGB图像数据。这些数据不仅在时间上具有一致性,而且在空间上也经过精确对齐,便于用户进行综合分析。此外,数据集提供了多种预处理工具和框架,使得即使是初学者也能轻松处理和分析这些复杂的数据类型。
使用方法
M3LEO数据集的使用方法多样,适用于多种地球观测任务的模型评估。用户可以通过提供的PyTorch Lightning框架,利用Hydra进行配置管理,快速搭建和训练模型。数据集还提供了工具,允许用户从Google Earth Engine等平台获取数据并进行无缝集成。此外,数据集的预处理数据可以直接用于训练和测试,简化了数据处理的复杂性,使得研究人员能够专注于模型开发和优化。
背景与挑战
背景概述
M3LEO数据集由剑桥大学、德雷塞尔大学、瓦伦西亚大学、欧洲航天局气候办公室和牛津大学的研究人员共同创建,旨在解决地球观测(EO)数据在机器学习(ML)管道中的处理难题。该数据集整合了合成孔径雷达(SAR)和RGB数据,涵盖了多种SAR数据类型,包括极化、干涉和相干数据,以及Sentinel-2 RGB影像。M3LEO数据集的创建旨在克服光学数据在夜间或恶劣天气条件下的无效性,并提供一个多模态、多标签的地球观测数据集,支持多种ML应用。该数据集的发布时间为2024年,覆盖了17.5TB的数据量和约1000万个4x4公里的数据块,跨越六个不同的地理区域。
当前挑战
M3LEO数据集面临的挑战包括:1) 处理和整合来自不同平台和格式的EO数据,特别是SAR数据的复杂性;2) 确保数据在空间和时间上的对齐,以便于ML模型的训练和评估;3) 提供一个灵活的框架,以适应不同EO应用的需求,并简化数据预处理过程;4) 解决SAR数据在ML应用中的局限性,特别是在缺乏ML就绪数据和管道的情况下。此外,数据集的构建过程中还面临数据存储和处理的技术和计算挑战,以及确保数据质量和一致性的问题。
常用场景
经典使用场景
M3LEO数据集的经典使用场景主要集中在多模态地球观测数据的融合分析上。该数据集整合了合成孔径雷达(SAR)和光学数据,特别适用于在夜间或恶劣天气条件下进行地球观测任务。例如,研究人员可以利用M3LEO进行洪水检测、城市破坏评估和森林冠层高度测量等任务,这些任务通常受限于光学传感器在不良天气条件下的性能。
解决学术问题
M3LEO数据集解决了在地球观测领域中常见的学术研究问题,特别是在处理大规模多模态数据时的技术挑战。通过提供预处理的多模态数据和灵活的PyTorch Lightning框架,M3LEO降低了数据处理的复杂性和计算成本,使得研究人员能够更专注于模型的开发和优化。这不仅推动了SAR数据在机器学习中的应用,还为多模态数据融合提供了新的研究方向。
衍生相关工作
M3LEO数据集的发布催生了一系列相关研究工作,特别是在多模态数据融合和深度学习在SAR数据中的应用方面。例如,一些研究利用M3LEO进行自监督学习,开发了能够处理大规模SAR数据的预训练模型。此外,M3LEO还促进了跨学科的合作,如地球科学和计算机科学的结合,推动了地球观测技术的创新和发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作