five

Hephaestus Minicubes

收藏
github2025-05-26 更新2025-06-11 收录
下载链接:
https://github.com/Orion-AI-Lab/Hephaestus-minicubes
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于通过InSAR卫星图像监测火山活动的新数据集。`Hephaestus Minicubes`基于`Hephaestus`并提供了多种关键优势:机器学习就绪状态、地理参考的InSAR图像(相对于PNG格式)、增强的空间分辨率(100米GSD相对于333米GSD)、物理可解释的像素值(相对于RGB合成)、具有空间和时间维度的Zarr文件格式,以及用于火山监测的关键附加数据:数字高程模型(DEM)、混淆大气变量。数据集覆盖了全球38个火山,分布在7大洲中的6个。标注由SAR/InSAR专家通过细致的照片解释制作,提供了关于变形类型(岩床、岩脉、莫吉、球体、地震)、强度水平(低、中、高)、非火山相关条纹(大气、轨道、冰川)的存在以及火山活动阶段(静止、动荡、反弹)的丰富信息。每个样本还包含观察到的现象的文本描述,非常适合基于语言的机器学习建模。

This is a new dataset designed for monitoring volcanic activities through InSAR satellite imagery. The Hephaestus Minicubes, based on Hephaestus, offers various key advantages: machine learning readiness, georeferenced InSAR images (in contrast to PNG format), enhanced spatial resolution (100-meter GSD compared to 333-meter GSD), physically interpretable pixel values (in contrast to RGB compositing), a Zarr file format with spatial and temporal dimensions, and critical additional data for volcanic monitoring such as digital elevation models (DEM) and atmospheric variables. The dataset covers 38 volcanoes globally, distributed across six continents. Annotations are meticulously created by SAR/InSAR experts through detailed photo interpretation, providing rich information about deformation types (bedrock, dikes, mogi, spherules, seismic), intensity levels (low, medium, high), the presence of non-volcanic streaks (atmospheric, orbital, glacial), and volcanic activity stages (stationary, tumultuous, rebound). Each sample also includes a textual description of the observed phenomena, making it highly suitable for language-based machine learning modeling.
创建时间:
2025-05-15
原始信息汇总

Hephaestus Minicubes 数据集概述

数据集简介

  • 名称:Hephaestus Minicubes
  • 提交信息:NeurIPS 2025(Datasets and Benchmarks track)
  • 基础数据集:基于Hephaestus(Bountos et al., 2022)构建
  • 主要用途:通过InSAR卫星图像进行火山活动监测

关键优势

  • 机器学习就绪状态
  • 地理参考InSAR图像(非PNG格式)
  • 增强的空间分辨率:100m GSD(原333m GSD)
  • 物理可解释的像素值(非RGB合成)
  • Zarr文件格式,包含空间和时间维度
  • 附加火山监测关键数据:数字高程模型(DEM)、干扰大气变量

数据集覆盖范围

  • 火山数量:38座
  • 覆盖大洲:6个(共7个)

标注信息

  • 标注方法:SAR/InSAR专家通过照片判读
  • 标注内容
    • 变形类型(岩床、岩脉、莫吉、球体、地震)
    • 强度等级(低、中、高)
    • 非火山相关条纹(大气、轨道、冰川)
    • 火山活动阶段(静止、动荡、反弹)
  • 附加信息:每个样本包含观察现象的文本描述

数据下载与处理

  • 下载地址Hephaestus_Minicubes_v0
  • 解压步骤
    1. 赋予解压脚本执行权限:chmod +x decompress_datacubes.sh
    2. 运行解压脚本:./decompress_datacubes.sh ./hephaestus_minicubes_download

基准测试

  • 任务类型
    • 图像分类(单图像和时间序列输入)
    • 语义分割(单图像和时间序列输入)
  • 模型列表
    • 分类:ResNet、MobileNet v3、EfficientNet v2、ConvNeXt、ViT
    • 分割:DeepLab v3、UNet、SegFormer

数据划分

  • 训练集:2014年1月-2019年5月
  • 验证集:2019年6月-2019年12月
  • 测试集:2020年1月-2021年12月

训练说明

  • 配置:通过configs/configs.json文件配置模型和训练参数
  • 命令python main.py(可选--wandb标志同步到Weights and Biases)
  • WebDataset导出:需在配置文件中设置webdataset参数为true

示例资源

技术说明

  • 时间序列实现:随机子集选择或随机复制以达到所需长度
  • 欠采样:训练时对所有正例和等量负例进行采样
  • 裁剪:应用512x512随机偏移裁剪
  • 目标掩码选项:Last、Peak、Union、All(仅用于调试)
搜集汇总
数据集介绍
main_image_url
构建方式
Hephaestus Minicubes数据集基于先进的InSAR卫星影像技术构建,专为火山活动监测领域设计。该数据集在Hephaestus数据集的基础上进行了全面升级,采用Zarr文件格式存储,具备空间和时间维度的高效组织能力。数据采集覆盖全球38座火山,横跨6大洲,通过SAR/InSAR专家的精细影像解译标注,包含形变类型、强度等级、非火山相关条纹及火山活动阶段等多维度信息。每个样本还附有对观测现象的详细文本描述,为语言建模提供了理想素材。
特点
该数据集以机器学习友好性为核心优势,提供100米地面采样距离的高空间分辨率影像,显著优于同类产品的333米分辨率。数据采用物理可解释的像素值表示,摒弃传统RGB合成方式,确保数据科学性。独特的时空维度组织方式配合数字高程模型和大气干扰变量等辅助数据,为多模态分析创造了条件。标注体系设计严谨,既包含专家判读的定性分类,又提供定量强度分级,支持从基础分类到复杂语义分割的多层次研究需求。
使用方法
用户可通过Dropbox获取压缩数据集,执行提供的bash脚本完成解压流程。数据集支持两种基准任务:基于单帧影像和时间序列的分类与分割任务,配套代码库集成ResNet、ViT等主流深度学习模型。训练过程采用时间划分策略,2014-2019年数据用于训练,2019年末数据验证,2020-2021年数据测试。使用时需配置JSON文件设定超参数,通过WebDataset格式实现高效数据流,并可选配WandB进行实验追踪。交互式Colab笔记本和Jupyter示例为数据探索提供可视化支持。
背景与挑战
背景概述
Hephaestus Minicubes数据集由Bountos等研究人员于2025年提出,作为NeurIPS会议Datasets and Benchmarks赛道的重要成果,该数据集旨在通过InSAR卫星影像推动火山活动监测领域的研究。作为Hephaestus数据集的进阶版本,其核心价值在于提供地理参照的干涉雷达影像、100米空间分辨率数据及物理可解释的像素值,覆盖全球六大洲38座火山的形变特征。数据集创新性地引入数字高程模型和大气干扰变量,并标注了形变类型、强度等级及火山活动阶段等多维信息,为机器学习模型在火山灾害预警系统的开发提供了关键数据支撑。
当前挑战
该数据集解决的领域核心挑战在于克服传统火山监测中低时空分辨率影像的局限,以及非火山因素(如大气扰动、冰川运动)对形变信号识别的干扰。构建过程中面临多重技术难题:需将原始333米分辨率影像提升至100米并保持物理一致性;专家标注需平衡不同形变类型(岩床、岩脉、莫吉源等)的样本分布;时间序列处理中需设计随机子集采样与数据增强策略以应对次级影像数量不均衡问题;Zarr格式的时空维度存储方案需优化以支持大规模深度学习训练。
常用场景
经典使用场景
Hephaestus Minicubes数据集在火山活动监测领域具有广泛的应用价值。通过InSAR卫星影像,该数据集能够捕捉地表形变信息,为火山活动提供实时监测。其高空间分辨率和物理可解释的像素值使得研究人员能够更精确地分析火山形变类型和强度,从而为火山预警系统提供可靠数据支持。
衍生相关工作
该数据集衍生了多项经典研究工作,特别是在深度学习和遥感影像分析领域。基于Hephaestus Minicubes,研究人员开发了多种图像分类和语义分割模型,如ResNet、ViT和UNet等。这些工作不仅推动了火山形变监测的技术进步,也为其他地学领域的机器学习应用提供了参考。
数据集最近研究
最新研究方向
近年来,Hephaestus Minicubes数据集在火山活动监测领域引起了广泛关注,特别是在利用InSAR卫星影像进行机器学习建模方面。该数据集通过提供高分辨率的地理参考影像和丰富的注释信息,为研究人员在火山形变类型、强度级别以及活动阶段等方面的研究提供了强有力的支持。前沿研究方向主要集中在多任务深度学习模型的开发,包括图像分类和语义分割任务,并结合时间序列分析以提高预测精度。此外,该数据集还被用于探索语言模型在火山活动描述中的应用,进一步拓展了其在自然灾害预警系统中的潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作