Poseidon
收藏arXiv2026-01-06 更新2026-01-07 收录
下载链接:
https://huggingface.co/datasets/BorisKriuk/Poseidon
下载链接
链接失效反馈官方服务:
资源简介:
Poseidon数据集是由香港科技大学和悉尼科技大学联合构建的全球最大开源地震目录,包含跨越30年的283万条地震事件记录。该数据集涵盖全球范围的地震活动(震级0.0-9.1),提供经纬度网格索引、预计算能量特征(基于Gutenberg-Richter定律)及标准化质量指标。其创新性在于将地震学物理定律(如能量-震级标度关系)直接编码为机器学习可用的特征,并通过空间网格化处理优化地学分析效率。该数据集旨在支持多任务地震预测研究,包括余震序列识别、海啸生成潜力评估和前震检测等跨领域应用。
The Poseidon dataset, jointly developed by The Hong Kong University of Science and Technology and the University of Technology Sydney, is the world's largest open-source seismic catalog, containing 2.83 million seismic event records spanning 30 years. This dataset covers global seismic activity with magnitudes ranging from 0.0 to 9.1, and provides latitude-longitude grid indexing, pre-computed energy features based on the Gutenberg-Richter law, and standardized quality metrics. Its innovation lies in directly encoding seismological physical laws (such as the energy-magnitude scaling relationship) into machine-learning-ready features, and optimizing geoscientific analysis efficiency through spatial gridding processing. This dataset aims to support multi-task seismic prediction research, including cross-disciplinary applications such as aftershock sequence identification, tsunami generation potential assessment, and foreshock detection.
提供机构:
香港科技大学·计算机科学与工程系; 悉尼科技大学·工程与信息技术学院
创建时间:
2026-01-06
原始信息汇总
Poseidon: 全球地震数据集(1990-2020)概述
数据集简介
Poseidon 是一个大型开源全球地震数据集,包含 超过280万次地震事件,时间跨度为30年(1990-2020)。该数据集专为机器学习应用设计,包括地震预测、地震危险性分析、时空模式识别和基于能量的建模。
关键统计信息
- 总事件数:2,833,766
- 时间跨度:1990-01-01 至 2024-12-31
- 震级范围:0.0 - 9.1
- 地理覆盖范围:全球(纬度 -90 至 90,经度 -180 至 180)
- 空间分辨率:180 x 360 网格单元(1度分辨率)
数据特征
核心地震属性
| 列名 | 类型 | 描述 |
|---|---|---|
| id | string | 唯一的USGS事件标识符 |
| time | string | ISO 8601时间戳(UTC) |
| latitude | float64 | 事件纬度(-90 至 90) |
| longitude | float64 | 事件经度(-180 至 180) |
| depth | float64 | 震源深度(公里) |
| magnitude | float64 | 事件震级 |
| mag_type | string | 震级类型(ml, mb, mw, md等) |
事件元数据
| 列名 | 类型 | 描述 |
|---|---|---|
| place | string | 人类可读的位置描述 |
| type | string | 事件类型(地震、采石场爆破等) |
| status | string | 审查状态(已审查、自动) |
| tsunami | int64 | 海啸标志(1 = 产生海啸,0 = 无) |
| sig | int64 | 重要性评分(0-1000+) |
| net | string | 贡献地震网络代码 |
质量指标
| 列名 | 类型 | 描述 |
|---|---|---|
| nst | float64 | 使用的地震台站数量 |
| dmin | float64 | 到最近台站的最小距离(度) |
| rms | float64 | 均方根走时残差 |
| gap | float64 | 方位角间隙(度) |
| horizontal_error | float64 | 水平位置不确定性(公里) |
| depth_error | float64 | 深度不确定性(公里) |
| mag_error | float64 | 震级不确定性 |
| mag_nst | float64 | 用于震级计算的台站数量 |
预计算时间特征
| 列名 | 类型 | 描述 |
|---|---|---|
| year | int64 | 事件年份 |
| month | int64 | 事件月份(1-12) |
| day | int64 | 事件日期(1-31) |
| hour | int64 | 事件小时(0-23 UTC) |
| minute | int64 | 事件分钟(0-59) |
| second | int64 | 事件秒(0-59) |
预计算空间网格特征
| 列名 | 类型 | 描述 |
|---|---|---|
| lat_bin | int64 | 纬度分箱索引(0-179),用于热图生成 |
| lon_bin | int64 | 经度分箱索引(0-359),用于热图生成 |
预计算能量特征
| 列名 | 类型 | 描述 |
|---|---|---|
| energy_joules | float64 | 地震释放能量(焦耳) |
| log_energy | float64 | 能量的对数(用于数值稳定性) |
能量计算
地震能量使用古登堡-里克特能量-震级关系式计算: log10(E) = 1.5 x M + 4.8 其中 E = 能量(焦耳),M = 地震震级。
示例值:
| 震级 | 能量(焦耳) | 等效物 |
|---|---|---|
| 2.0 | 6.3 x 10^7 | 小型爆炸 |
| 4.0 | 6.3 x 10^10 | 15吨TNT |
| 6.0 | 6.3 x 10^13 | 15千吨TNT |
| 8.0 | 6.3 x 10^16 | 15百万吨TNT |
| 9.0 | 2.0 x 10^18 | 475百万吨TNT |
应用领域
该数据集设计用于:
- 地震预测模型
- 余震序列分析
- 震级-频率分析
- 海啸早期预警
- 基于能量的模型
- CNN/RNN训练
- 地震危险性制图
许可证
本数据集采用 CC BY 4.0 许可证发布。
致谢
- 美国地质调查局地震灾害计划提供源数据
- 古登堡和里克特提出基础的能量-震级关系
搜集汇总
数据集介绍

构建方式
在地震学领域,数据集的构建质量直接影响着预测模型的可靠性与泛化能力。Poseidon数据集的构建基于全球范围内长达30年的连续地震观测记录,精心整合了来自多个权威地震监测网络的原始数据。其构建过程采用了系统化的特征工程方法,为每个地震事件计算了基于古登堡-里希特能量-震级关系的预计算能量特征,同时提供了标准化的空间网格索引,将地理坐标离散化为180×360的一度分辨率网格,便于卷积神经网络进行高效的地理空间分析。数据集还包含了事件类型标签、海啸标志、质量度量等30个属性,确保了数据的多维性与完整性。
特点
Poseidon数据集作为目前最大的开源全球地震目录,其显著特点在于深度融合了物理学先验知识与机器学习友好型数据结构。数据集囊括了283万余个地震事件,覆盖了从0.0至9.1的完整震级谱,并具有全球地理覆盖性。其核心创新在于提供了预计算的震源能量特征,该特征根据公式log₁₀(E)=1.5M+4.8推导而来,能量跨度达十二个数量级,使得模型能够直接从能量角度而非原始震级值进行学习。此外,数据集通过标准化的空间网格与时间分解特征,为多尺度时空模式识别与物理信息神经网络的应用提供了结构化基础。
使用方法
该数据集专为支持物理信息驱动的多任务地震灾害预测研究而设计。使用者可通过提供的Hugging Face仓库直接访问数据,其中包含预处理的能量特征、网格索引与质量指标。在研究方法上,数据集支持构建类似于POSEIDON模型的物理信息能量基模型,将古登堡-里希特律、大森-宇津余震衰减律等地震学定律作为可学习的约束嵌入损失函数。研究人员可利用其多尺度时空编码框架,同时处理余震序列识别、海啸生成潜力评估与前震检测这三个相互关联的预测任务,并通过对比损失与加权采样策略应对极端类别不平衡问题。
背景与挑战
背景概述
地震预测与危险性评估是地球物理学领域的核心挑战,传统方法多依赖于经验性定律,难以捕捉地震过程的复杂非线性关系。POSEIDON数据集由香港科技大学与悉尼科技大学的研究团队于2026年创建,旨在为物理信息机器学习提供大规模、标准化的全球地震目录。该数据集收录了跨越30年、总计280万次地震事件,是迄今最大的开源地震数据集。其核心研究问题在于如何将古登堡-里克特定律、大森-宇津余震衰减定律等经典地震学原理嵌入机器学习框架,以统一方式解决余震序列识别、海啸生成潜力评估和前震检测三大关联任务。该数据集的发布为地震危险性分析、时空模式识别及能量建模研究奠定了坚实基础,推动了物理信息深度学习在地球科学中的应用。
当前挑战
POSEIDON数据集旨在解决的领域挑战集中于统一多任务地震危险性预测。传统机器学习模型常作为黑箱运行,其数据驱动表征可能违背地震行为的基本物理规律,导致模型在预测罕见但破坏性强的重大余震或海啸事件时可靠性不足。同时,现有方法多孤立处理地震相关任务,未能有效利用余震发生、海啸生成与前震识别之间的内在关联。数据层面则面临极端类别不平衡的挑战,海啸生成事件仅占数据集的1.14%,严重影响了模型的稳健性。在构建过程中,挑战主要体现为如何将统计地震学定律转化为可学习的约束并整合至能量基模型框架,以及如何设计多尺度时空编码以同时捕捉短期活动模式与长期背景地震性,并确保从全球观测数据中提取的预计算能量特征具备数值稳定性与物理一致性。
常用场景
经典使用场景
在地震学与地球物理领域,Poseidon数据集为物理信息机器学习模型提供了前所未有的训练与验证基础。该数据集整合了全球三十年间超过280万次地震事件,其最经典的应用场景在于支撑多任务联合预测框架的构建。研究人员利用其预计算的能量特征与标准化时空网格,能够同时训练模型进行余震序列识别、海啸生成潜力评估以及前震检测,从而实现对地震灾害链的综合性分析。这种一体化建模范式有效捕捉了不同地震现象间的内在关联,推动了从孤立预测向系统风险评估的范式转变。
解决学术问题
Poseidon数据集的核心学术价值在于解决了传统机器学习在地震预测中的物理一致性缺失与任务割裂问题。通过嵌入古登堡-里克特定律、大森-宇津余震衰减定律等可学习的物理约束,该数据集促使模型在保持高预测性能的同时,其学习参数收敛于地震学公认的合理范围。这显著增强了深度学习模型的科学可解释性与可靠性,尤其为处理极端类别不平衡的罕见灾难性事件提供了新途径,弥合了数据驱动方法与经典物理理论之间的鸿沟。
衍生相关工作
Poseidon数据集的发布催生了一系列围绕物理信息地震预测的衍生研究。其开创性的物理约束能量模型框架,启发了后续工作将更多地震学原理,如应力转移模型、断层力学关系等,集成到深度学习架构中。同时,该数据集提供的标准化特征与大规模标注,也促进了对比学习、元学习等先进范式在地球物理领域的适配与应用,推动了地震预测模型从黑箱向透明、可解释且物理自洽的方向持续演进。
以上内容由遇见数据集搜集并总结生成



