SDO_training
收藏Hugging Face2025-05-21 更新2025-05-22 收录
下载链接:
https://huggingface.co/datasets/nasa-impact/SDO_training
下载链接
链接失效反馈官方服务:
资源简介:
SDO ML-Ready数据集:包含从2010年5月13日至2024年7月31日,由NASA的Solar Dynamics Observatory(SDO)观测的机器学习准备好的太阳数据。该数据集包括Atmospheric Imaging Assembly(AIA)和Helioseismic and Magnetic Imager(HMI)的Level-1.5处理数据,用于支持太阳活动预测、无监督表征学习和科学基础模型开发等大规模机器学习应用。
创建时间:
2025-05-16
原始信息汇总
🌞 SDO ML-Ready Dataset: AIA and HMI Level-1.5
概述
- 数据集名称: SDO ML-Ready Dataset: AIA and HMI Level-1.5
- 许可证: MIT
- 数据规模: >1TB
- 标签: Helio, Foundation_model, Pretraining
- 时间覆盖范围: 2010年5月13日至2024年12月31日
- 数据来源: NASA太阳动力学天文台(SDO)
数据集详情
- 数据格式: netCDF (
.nc), float32 - 时间粒度: 12分钟
- 数据形状:
[13, 4096, 4096]每文件 - 通道数: 13个 (AIA EUV ×8 + HMI磁图 ×5)
- 文件大小: ~570 MB
- 总大小: ~360TB
数据变量
- AIA波段:
- aia94: AIA 94 Å
- aia131: AIA 131 Å
- aia171: AIA 171 Å
- aia193: AIA 193 Å
- aia211: AIA 211 Å
- aia304: AIA 304 Å
- aia335: AIA 335 Å
- aia1600: AIA 1600 Å (UV连续谱)
- HMI数据:
- hmi_m: HMI LOS磁图
- hmi_bx: HMI磁场 - x分量
- hmi_by: HMI磁场 - y分量
- hmi_bz: HMI磁场 - z分量
- hmi_v: HMI多普勒速度
其他信息
- 训练数据: 1个月的数据以Parquet格式提供
- 作者: Sujit Roy, Dinesha Vasanta Hegde, Johannes Schmude, Amy Lin, Vishal Gaur, Talwinder Singh, Rohit Lal
- 联系方式: sujit.roy@nasa.gov
搜集汇总
数据集介绍

构建方式
该数据集基于NASA太阳动力学天文台(SDO)的观测数据构建,时间跨度为2010年5月13日至2024年7月31日。数据经过Level-1.5级别的处理,主要来源于大气成像组件(AIA)和日震与磁成像仪(HMI)的观测结果。采用netCDF格式存储,每个文件包含13个通道的数据,空间分辨率为4096×4096像素,时间分辨率为12分钟。数据集构建过程中特别注重机器学习的适用性,通过标准化处理确保数据质量。
特点
该数据集以其高时空分辨率和多通道观测能力著称,涵盖了8个AIA极紫外通道和5个HMI磁图通道,为太阳物理研究提供了全面的观测视角。数据以float32精度存储,单个文件大小约570MB,总规模达到360TB。其独特的13通道三维数据结构(13×4096×4096)特别适合深度学习模型的输入需求,能够有效支持太阳活动预报、无监督表征学习等前沿研究。
使用方法
该数据集推荐使用Python生态工具链进行处理,特别是xarray和netCDF4库能够高效读取数据格式。对于机器学习应用,建议先将数据转换为张量形式,利用现代深度学习框架如PyTorch或TensorFlow进行模型训练。数据集在HuggingFace平台以Parquet格式提供部分训练样本,便于快速验证模型效果。使用时应特别注意数据的时间对齐和归一化处理,以确保不同通道间物理量的一致性。
背景与挑战
背景概述
SDO_training数据集由NASA太阳动力学天文台(SDO)提供,涵盖2010年5月13日至2024年7月31日的太阳观测数据,旨在推动日球物理学领域的大规模机器学习应用。该数据集由Sujit Roy等研究人员主导开发,整合了大气成像组件(AIA)和日震与磁成像仪(HMI)的Level-1.5处理数据,为太阳活动预测、无监督表示学习及科学基础模型开发提供了关键支持。其高时空分辨率与多通道数据为太阳物理研究开辟了新途径,显著提升了该领域的数据驱动研究能力。
当前挑战
SDO_training数据集在解决太阳活动多模态分析与预测问题时,面临太阳物理现象的高度动态性与复杂性挑战,需处理极端事件(如耀斑、日冕物质抛射)的稀疏样本问题。数据构建过程中,4096×4096像素的高分辨率图像导致单文件达570MB,总规模约360TB,对存储与计算资源提出严峻要求。多仪器(AIA/HMI)数据的时空对齐与辐射定标需精密处理,而12分钟采样的长时序依赖关系则增加了模型训练的复杂度。
常用场景
经典使用场景
在太阳物理学研究中,SDO_training数据集为机器学习模型提供了高质量的太阳观测数据。该数据集广泛应用于太阳活动预测、日冕物质抛射检测以及太阳磁场演化分析等领域。通过AIA和HMI的多波段观测数据,研究人员能够构建复杂的深度学习模型,用于识别和分类太阳活动现象。
衍生相关工作
围绕SDO_training数据集已衍生出多项重要研究工作。其中包括基于Transformer架构的太阳活动预测模型SolarFlareNet、用于多波段太阳图像生成的Diffusion模型SolarDiff,以及面向太阳磁场重建的物理约束神经网络MagNet。这些工作显著推动了数据驱动型太阳物理学研究的发展。
数据集最近研究
最新研究方向
随着深度学习技术在空间物理领域的深入应用,SDO_training数据集正成为太阳物理研究的重要基石。该数据集整合了SDO卫星长达14年的高分辨率观测数据,为构建太阳活动预测的基础模型提供了前所未有的多波段、多参数训练素材。当前研究热点集中在利用其13通道的协同观测特性,开发时空融合的Transformer架构,以捕捉太阳耀斑和日冕物质抛射的前兆特征。2024年NASA发布的《太阳物理学十年调查》特别指出,此类标注完善的ML-Ready数据集将加速日地空间天气预警系统的智能化转型。
以上内容由遇见数据集搜集并总结生成



