juliensimon/donki-space-weather-events
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/juliensimon/donki-space-weather-events
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
pretty_name: "NASA DONKI Space Weather Events"
language:
- en
description: "Coronal mass ejections, geomagnetic storms, interplanetary shocks, and solar energetic particles from NASA CCMC DONKI (2010-present)."
task_categories:
- tabular-classification
- time-series-forecasting
tags:
- space
- space-weather
- cme
- geomagnetic-storm
- solar
- nasa
- open-data
- coronal-mass-ejection
- ccmc
- donki
- solar-wind
- tabular-data
- parquet
size_categories:
- 10K<n<100K
configs:
- config_name: default
data_files:
- split: train
path: data/donki_events.parquet
default: true
---
# DONKI Space Weather Events
*Part of the [Space Weather Datasets](https://huggingface.co/collections/juliensimon/space-weather-datasets-69c24cae98f1666f2101ca70) collection on Hugging Face.*


Space weather events from NASA's [DONKI](https://kauai.ccmc.gsfc.nasa.gov/DONKI/) (Database Of
Notifications, Knowledge, Information) at the Community Coordinated Modeling Center. Covers
**2010-01-20** to **2026-03-28** with **12,120** events.
## Dataset description
DONKI tracks the chain of space weather events from Sun to Earth:
1. **CME** (Coronal Mass Ejection) — eruption of magnetized plasma from the Sun
2. **IPS** (Interplanetary Shock) — shock wave propagating through solar wind
3. **GST** (Geomagnetic Storm) — disturbance in Earth's magnetosphere
4. **HSS** (High Speed Stream) — fast solar wind from coronal holes
5. **SEP** (Solar Energetic Particle) — high-energy particles from solar events
Events are **cross-linked** via the `linked_events` column, enabling causal chain analysis
(e.g., which CME caused which geomagnetic storm).
## Schema
| Column | Type | Description |
|--------|------|-------------|
| `event_type` | string | CME, GST, IPS, HSS, or SEP |
| `activity_id` | string | Unique event identifier |
| `start_time` | datetime | Event start time (UTC) |
| `source_location` | string | Solar source location (CME only, e.g. "N23W45") |
| `active_region` | int | NOAA active region number (CME only) |
| `note` | string | Analyst notes |
| `link` | string | DONKI web page for this event |
| `cme_speed_kms` | float | CME speed in km/s (CME only) |
| `cme_half_angle_deg` | float | CME half-angle in degrees (CME only) |
| `cme_latitude` | float | CME latitude (CME only) |
| `cme_longitude` | float | CME longitude (CME only) |
| `cme_type` | string | CME type: S (slow), C (common), O (occasional), R (rare), ER (extremely rare) |
| `cme_time_21_5` | datetime | Time CME reaches 21.5 solar radii (CME only) |
| `cme_measurement` | string | Measurement technique (CME only) |
| `gst_max_kp` | float | Maximum Kp index during storm (GST only) |
| `gst_kp_count` | int | Number of Kp readings during storm (GST only) |
| `linked_events` | string | Comma-separated IDs of linked events (causal chain) |
## Quick stats
- **12,120** events (2010-01-20 to 2026-03-28)
- **9,370** CMEs, **191** geomagnetic storms, **1,334** interplanetary shocks
- **757** high speed streams, **468** solar energetic particle events
- Fastest CME: **3529 km/s** on 2024-02-12
## Usage
```python
from datasets import load_dataset
ds = load_dataset("juliensimon/donki-space-weather-events", split="train")
df = ds.to_pandas()
# Fast CMEs (potential Earth-directed storms)
fast_cmes = df[(df["event_type"] == "CME") & (df["cme_speed_kms"] > 1000)]
# Geomagnetic storms with linked CMEs
storms = df[df["event_type"] == "GST"]
storms_with_cme = storms[storms["linked_events"].str.contains("CME", na=False)]
# CME speed distribution
cmes = df[df["event_type"] == "CME"]
cmes["cme_speed_kms"].hist(bins=50)
# Event frequency by type and year
df["year"] = df["start_time"].dt.year
df.groupby(["year", "event_type"]).size().unstack().plot()
# Causal chain: find all events linked to a specific CME
cme_id = "2024-05-08T22:09:00-CME-001"
chain = df[df["linked_events"].str.contains(cme_id, na=False)]
```
## Data source
[NASA CCMC DONKI API](https://ccmc.gsfc.nasa.gov/tools/DONKI/). Events are catalogued by
space weather analysts at the Community Coordinated Modeling Center (CCMC) using data from
SOHO, STEREO, SDO, and ground-based observatories.
## Update schedule
Daily at 14:00 UTC via [GitHub Actions](https://github.com/juliensimon/space-datasets).
## Related datasets
- [solar-flare-events](https://huggingface.co/datasets/juliensimon/solar-flare-events) — GOES X-ray flare detections
- [space-weather-indices](https://huggingface.co/datasets/juliensimon/space-weather-indices) — Daily Kp, Ap, F10.7
- [dst-index](https://huggingface.co/datasets/juliensimon/dst-index) — Hourly Dst geomagnetic index
- [neo-close-approaches](https://huggingface.co/datasets/juliensimon/neo-close-approaches) — Near-Earth object approaches
## Pipeline
Source code: [juliensimon/space-datasets](https://github.com/juliensimon/space-datasets)
## Support
If you find this dataset useful, please give it a ❤️ on the [dataset page](https://huggingface.co/datasets/juliensimon/donki-space-weather-events) and share feedback in the Community tab! Also consider giving a ⭐️ to the [space-datasets](https://github.com/juliensimon/space-datasets) repo.
## Citation
If you use this dataset, please cite:
```bibtex
@dataset{donki_space_weather_events,
author = {Simon, Julien},
title = {NASA DONKI Space Weather Events},
year = {2026},
publisher = {Hugging Face},
url = {https://huggingface.co/datasets/juliensimon/donki-space-weather-events}
}
```
### Data source
[NASA CCMC DONKI API](https://ccmc.gsfc.nasa.gov/tools/DONKI/)
## License
[CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/)
提供机构:
juliensimon
搜集汇总
数据集介绍

构建方式
该数据集源自美国国家航空航天局社区协调建模中心维护的DONKI数据库,通过专业分析师对多源空间天气观测数据的系统性整理构建而成。数据采集覆盖太阳活动事件从爆发到传播的全过程,整合了SOHO、STEREO等空间观测站以及地基观测网络提供的日冕物质抛射、行星际激波、地磁暴等关键事件的参数化记录。构建过程中采用标准化事件标识与因果关联机制,通过linked_events字段将具有物理关联的事件串联为完整的因果链,形成覆盖2010年至2026年共计12,159条事件记录的结构化集合。
特点
数据集的核心特征在于其独特的因果链架构,通过事件关联字段完整保留了太阳活动与地球空间环境响应之间的物理联系。数据内容涵盖五大类空间天气事件,包含9,406次日冕物质抛射记录及对应的速度、角宽、经纬度等形态学参数,同时整合了1,335次行星际激波与191次地磁暴事件的观测指标。这种多事件类型的耦合记录方式,使得研究者能够追溯特定日冕物质抛射引发的地磁扰动全过程,为分析事件传播时延、地球效应相关性等空间天气物理机制提供了结构化数据基础。
使用方法
使用该数据集时,可通过Hugging Face数据集库直接加载Parquet格式的标准化数据表。研究者可利用事件类型字段筛选特定空间天气现象,结合因果关联字段重构太阳活动事件的完整传播链条。典型应用场景包括基于日冕物质抛射参数构建到达时间预测模型,通过地磁暴事件与关联日冕物质抛射的匹配关系研究地球效应的影响因素,以及利用事件时间序列分析太阳活动周期特征。数据集的表格化结构与明确的事件分类体系,使其能够便捷地融入机器学习工作流,服务于空间天气预报模型的训练与验证。
背景与挑战
背景概述
空间天气研究旨在理解太阳活动对地球空间环境的影响,其核心挑战在于预测日地因果链事件。NASA社区协调建模中心(CCMC)建立的DONKI(通知、知识与信息数据库)系统,自2010年起持续收录日冕物质抛射、地磁暴、行星际激波等关键事件。该数据集由Julien Simon等人整理并发布于Hugging Face平台,覆盖了2010年至2026年的12,159条记录,通过事件关联列明确揭示了从太阳爆发到地球响应的完整物理链条。DONKI的独特价值在于它首次系统性地标注了事件间的因果关系,为构建基于机器学习的空间天气预报模型提供了至关重要的标注数据,显著推动了日地物理关联分析与预测精度的提升。
当前挑战
在空间天气领域,准确预测日冕物质抛射的到达时间及其地磁效应一直是核心科学难题,其挑战源于太阳爆发事件的复杂性和行星际介质的不均匀性。DONKI数据集构建过程中,面临事件因果关联的人工标注一致性、多源异构观测数据的融合,以及不同事件类型(如缓变型高速流与突发型日冕物质抛射)的标准化描述等挑战。此外,如何将分析师基于图像的定性判断(如CME形态分类)转化为可计算的定量特征,并保持长时间序列中数据标注标准的前后一致,亦是数据集构建的关键难点。这些挑战直接影响了基于该数据训练的机器学习模型在预报未知事件时的泛化能力与可靠性。
常用场景
经典使用场景
在空间天气研究领域,DONKI数据集为太阳活动与地球磁层扰动之间的因果关联提供了结构化的事件链记录。其经典应用场景在于构建太阳风-磁层耦合的因果模型,研究者利用数据集中的事件类型、时间戳及链接关系,追溯从日冕物质抛射到地磁风暴的完整传播过程。通过分析CME速度、角度等参数与地磁指数间的统计规律,该数据集支持开发基于物理或机器学习的空间天气事件预测框架,例如CME到达时间估算模型或地磁暴强度分类器,为理解太阳爆发事件的传播动力学提供了关键数据支撑。
解决学术问题
该数据集有效解决了空间天气学中多个核心学术问题,特别是太阳爆发事件的地球效应量化与因果归因难题。传统研究常依赖独立的时间序列指数,难以明确特定日冕物质抛射与后续地磁扰动之间的直接联系。DONKI通过标注事件间的链接关系,使得研究者能够精确分析CME的传播时间、地球有效性与其形态参数的相关性,从而深化对太阳风-磁层能量耦合机制的认识。此外,数据集支持对高能粒子事件与行星际激波的统计研究,推动了空间天气因果链建模与预报不确定性的评估工作。
衍生相关工作
围绕DONKI数据集,已衍生出一系列经典研究工作,主要集中在机器学习驱动的空间天气预测模型开发。例如,研究者利用其标注的事件链训练卷积神经网络或时间序列模型,以预测CME到达地球的时间及其可能引发的地磁指数变化。另有工作基于数据集中的CME形态参数与地磁暴强度关联,构建了太阳爆发事件地球有效性的统计分类器。这些研究不仅推动了数据驱动空间天气学的发展,也为集成物理模型与人工智能的混合预报框架提供了验证基准。
以上内容由遇见数据集搜集并总结生成



