Hephaestus Minicubes
收藏arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://github.com/OrionAI-Lab/Hephaestus-minicubes
下载链接
链接失效反馈官方服务:
资源简介:
Hephaestus Minicubes数据集是一个全球性的多模态数据集,旨在监测火山活动。该数据集由38个时空数据立方体组成,覆盖全球44个最活跃的火山,时间跨度为7年。每个数据立方体整合了干涉合成孔径雷达(InSAR)产品、地形数据和已知会引起InSAR图像中地面变形的信号延迟的大气变量。此外,数据集还提供了专家注释,详细说明了变形事件的类型、强度和空间范围,以及观察场景的丰富文本描述。最后,数据集展示了一个全面的基准测试,证明了Hephaestus Minicubes在支持火山活动监测作为多模态、多时态分类和语义分割任务方面的能力,并使用最先进的架构建立了强大的基准。这项工作旨在推进火山监测中的机器学习研究,为地球科学应用中数据驱动方法的日益整合做出贡献。
The Hephaestus Minicubes dataset is a global multimodal dataset designed for volcanic activity monitoring. Comprising 38 spatiotemporal data cubes, the dataset covers 44 of the world's most active volcanoes across a 7-year temporal span. Each data cube integrates Interferometric Synthetic Aperture Radar (InSAR) products, topographic data, and atmospheric variables known to cause signal delays that induce ground deformation in InSAR imagery. In addition, the dataset provides expert annotations detailing the type, intensity, and spatial extent of deformation events, as well as rich textual descriptions of the observed scenes. Finally, the dataset includes a comprehensive benchmark that validates the capability of Hephaestus Minicubes to support volcanic activity monitoring as multimodal, multi-temporal classification and semantic segmentation tasks, and establishes robust baselines using state-of-the-art model architectures. This work aims to advance machine learning research in volcanic monitoring and contribute to the growing integration of data-driven approaches in geoscientific applications.
提供机构:
雅典国家天文台 & 雅典国立科技大学
创建时间:
2025-05-23
搜集汇总
数据集介绍

构建方式
Hephaestus Minicubes数据集的构建基于全球44座最活跃火山7年间的多源时空数据,通过整合卫星干涉合成孔径雷达(InSAR)相位差与相干性产品、数字高程模型(DEM)以及大气变量,形成38个高分辨率时空数据立方体。数据采用Zarr格式存储,优化了时空分析的效率,总容量达1.7TB。专家标注涵盖了变形类型、强度及空间范围,并辅以详细的文本描述,确保了数据的科学性和实用性。
特点
该数据集的核心特点在于其多模态与多时相设计,集成了InSAR相位差、地形数据及大气变量,有效区分真实地表形变与大气延迟伪影。每个数据立方体空间分辨率达100米×100米,包含19,942个标注样本,覆盖火山活动的不同阶段(静止、活跃、回弹)。独特的标注体系(如变形类型、强度分级)与大气噪声标识(如垂直分层、湍流混合)为机器学习模型提供了丰富的监督信号。
使用方法
Hephaestus Minicubes支持火山活动监测的多任务学习,包括二分类(形变检测)和语义分割(形变范围标注)。基准测试采用时空分割策略:训练集(2014-2019)、验证集(2019)和测试集(2020-2021)按主获取日期划分。输入数据裁剪为512×512像素,通过随机偏移增强泛化性。针对时间序列分析,模型以固定主日期下的多时相干涉图作为输入,通过聚合标签实现时空建模。所有实验代码与数据均开源,遵循MIT与CC-BY许可。
背景与挑战
背景概述
Hephaestus Minicubes数据集由Orion Lab国家天文台雅典与雅典国立技术大学的研究团队于2025年提出,旨在解决火山活动监测中地面形变信号识别的关键问题。该数据集作为Hephaestus的扩展版本,整合了2014-2021年间全球44座活跃火山的干涉合成孔径雷达(InSAR)数据、地形信息及大气变量,空间分辨率提升至100米×100米,包含19,942个专家标注样本。其创新性地融合了多模态时空数据立方体结构,为机器学习模型提供了毫米级形变检测能力,显著推动了地球科学领域数据驱动方法的发展。
当前挑战
该数据集面临的核心挑战体现在两个维度:科学问题层面,需解决InSAR影像中真实形变信号与大气延迟伪影的区分难题,尤其在火山复杂地形下大气分层效应会生成厘米级虚假形变图案;数据构建层面,存在标注一致性难题——火山形变边界的专家判定具有主观性,低相干区域标注存在固有模糊性,且大气变量与InSAR数据的空间分辨率失配(前者较粗糙)限制了多模态融合效果。此外,时序分析中双时相SAR数据的非固定时间间隔特性,增加了有效时间序列构建的复杂性。
常用场景
经典使用场景
Hephaestus Minicubes数据集在全球火山活动监测领域具有重要应用价值,其经典使用场景包括通过多模态、多时相的InSAR数据对火山地表形变进行高精度检测与分类。该数据集整合了干涉合成孔径雷达相位差、相干性、数字高程模型及大气变量,为深度学习模型提供了丰富的输入特征,特别适用于火山形变事件的时空建模与模式识别。研究人员可利用其结构化时空数据立方体,构建端到端的火山活动预警系统,或开发新型算法以区分真实形变与大气延迟伪影。
衍生相关工作
该数据集已衍生出多个经典研究方向:1)基于时空Transformer的火山形变检测框架(如Bountos等人2022a的工作);2)结合对比学习的自监督特征提取方法(Bountos等2022b);3)将火山活动建模为时序异常检测问题(Popescu等2024);4)多任务学习框架同时处理形变分类与语义分割。这些工作显著推进了InSAR数据理解的算法边界,其中ConvNeXt架构在数据集上达到79.26%的F1分数,成为当前性能基准。
数据集最近研究
最新研究方向
近年来,Hephaestus Minicubes数据集在火山活动监测领域引起了广泛关注,特别是在利用深度学习技术处理合成孔径雷达干涉测量(InSAR)数据方面。该数据集通过整合高分辨率InSAR相位差和相干性产品、数字高程模型(DEM)以及大气变量,为机器学习研究提供了丰富的多模态、多时相信息。前沿研究方向主要集中在如何利用该数据集进行火山形变的分类和语义分割任务,以及如何通过时间序列分析捕捉火山活动的动态演变。此外,研究者们还探索了如何有效融合大气变量以区分真实的地表形变与大气延迟引起的伪影,这一挑战在火山监测中尤为重要。Hephaestus Minicubes的发布不仅推动了数据驱动方法在地球科学中的应用,还为全球火山活动监测提供了新的工具和基准。
相关研究论文
- 1Hephaestus Minicubes: A Global, Multi-Modal Dataset for Volcanic Unrest Monitoring雅典国家天文台 & 雅典国立科技大学 · 2025年
以上内容由遇见数据集搜集并总结生成



