SeismicX-Cont

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/cangyeone/SeismicX-Cont

下载链接

链接失效反馈

官方服务：

资源简介：

SeismicX-Cont 是一个专为地震监测算法评估而设计的连续波形数据集。该数据集包含来自三个区域地震网络（南加州地震网络、北加州地震网络和伯克利数字地震网络）的连续波形记录，覆盖了两个代表性的7天时间窗口（2019年7月和2021年11月）。数据集以HDF5格式存储，包含三组分波形数据、台站元数据和事件标注。数据集设计为双场景基准，分别针对高活动期和低活动期进行评估，适用于地震检测、实时监测系统、机器学习模型评估和大规模波形分析等任务。数据集还提供了SeismicX DataLoader，一个高效的PyTorch数据加载工具，支持波形数据的自动合并、重采样和仪器响应处理。

创建时间：

2026-04-30

原始信息汇总

数据集概述：SeismicX-Cont — 连续地震数据集

SeismicX-Continuous Dataset 是一个专为评估连续波形记录上的地震监测算法而设计的基准数据集。与传统的基于事件的数据集不同，它强调连续数据流，支持在高活动和低活动地震期进行稳健比较。该数据集与 SeismicX DataLoader 集成，提供了一个用于大规模波形分析的 AI 就绪管道。

1. 数据来源

数据集包含来自三个区域地震网络的连续波形记录：

CI — 南加州地震网络
NC — 北加州地震网络
BK — 伯克利数字地震网络这些网络提供了不同的观测条件，包括仪器响应、通道配置、噪声特性和台站密度等方面的差异。

2. 时间窗口与数据内容

提供了两个具有代表性的 7 天连续时间窗口：

高活动窗口：2019年7月1日至 2019年7月8日
低活动窗口：2021年11月8日至 2021年11月15日

数据内容包括：

三分量波形数据（HDF5 格式）
台站元数据（经纬度、海拔、有效期）
合并为连续迹线的多段波形记录
源自 CEED 数据集的事件标注

3. 基准设计

数据集被设计为 双场景基准，分为高活动和低活动评估机制：

高活动窗口：地震密集且事件重叠，评估重点为召回率、漏检率和时间分辨率。
低活动窗口：地震稀疏且安静期长，评估重点为精度、误报率、噪声鲁棒性和模型稳定性。

4. 数据结构

数据集采用分层的 HDF5 布局，格式如下：

/年 /日 /台站 /网络.台站.位置 /波形 /通道 /段

每个通道可包含多个波形段，加载时会自动合并。

5. SeismicX DataLoader

文件：utils/hdf5_waveform_dataset.py

这是一个 PyTorch Dataset，封装了分层 HDF5 文件并提供即用型波形张量和完整台站元数据，专为大规模多文件数据集的单次推理设计，内存占用小。

关键特性：

多文件输入：支持单个文件、目录、通配符模式或文件路径列表。
通道族分组：波形按通道代码前两个字符分组，形成单一样本。
自动三分量构建：自动排列通道。
多段合并：合并连续 HDF5 段并填充间隙。
可选重采样：线性插值重采样至目标采样率。
仪器响应处理：可移除或模拟仪器响应。
内存安全的文件句柄缓存：仅保持当前 HDF5 文件句柄打开，内存占用保持 O(1)。

输出模式：

mode="single"：每个通道一个样本，波形形状为 [T]。
mode="three"（推荐）：每个通道族一个样本，分量排列为 E/N/Z，波形形状为 [T, 3]。
mode="multi"：每个通道族一个样本，所有可用通道堆叠，波形形状为 [T, C]。

输出示例字典： python { "mode": "three", "h5_file": "data/hdf5/continuous_waveform_usa_20190701.h5", "station_id": "BK.BDM.00", "channel_family": "BH", "channels": ["BHE", "BHN", "BHZ"], "waveform": torch.Tensor, "sampling_rate": 100.0, "starttime": "2019-07-01T00:00:00.000000Z", "station_info": { ... }, "channel_info": { ... }, # ... 其他元数据 }

6. 评估指标

推荐的评估指标：

召回率（检测率）：匹配的标注拾取比例。
精度：对应标注事件的自动拾取比例。
F1 分数：精确率和召回率的调和平均数。
漏检率：1 - 召回率。
误报率：单位时间内无匹配标签的自动拾取数。
残差分布：auto_time - label_time 的均值、标准差和稳健百分位数。

7. 数据集存储规模

数据集大小在 100GB 到 1TB 之间。

搜集汇总

数据集介绍

构建方式

SeismicX-Cont数据集的构建基于美国南加州、北加州及伯克利数字地震台网的连续波形记录，精选了2019年7月与2021年11月两个代表性七天窗口，分别对应高地震活动性与低地震活动性场景。原始波形数据经多段合并、间隙填充与重采样处理，以分层HDF5格式存储，并整合了台站元数据与CEED数据集的事件标注，形成了一套可直接用于机器学习流程的连续地震波形基准数据集。

特点

该数据集的核心特色在于其双场景评估设计，通过高活动性与低活动性窗口分别聚焦于密集事件序列中的漏检分析与稀疏事件条件下的虚警鲁棒性测试。数据加载器支持多文件输入、通道族自动分组、三分量构建与仪器响应校正，且采用内存安全的文件句柄缓存机制，即便处理海量文件也能保持恒定内存占用，为大规模波形分析提供了高效的AI就绪管线。

使用方法

数据集的使用依托于SeismicX DataLoader，通过HDF5WaveformDataset类加载HDF5文件，支持单文件、目录或通配符模式输入。用户可指定输出模式（单分量、三分量或多分量），并可灵活启用重采样、仪器响应移除与模拟功能。推荐采用spawn启动方式的多进程DataLoader以规避h5py的fork安全问题，同时可通过skip_jsonl参数实现已处理样本的自动跳过，便于断点续跑与大规模批量推理。

背景与挑战

背景概述

SeismicX-Cont数据集由地震学与机器学习交叉领域的研究团队于近年创建，旨在弥补传统事件驱动型地震波形数据集在连续监测评估上的不足。该数据集整合了美国南加州、北加州及伯克利数字地震台网的三分量连续波形记录，覆盖高活动性与低活动性两个典型时段，并配备高质量的CEED事件标注。通过提供标准化的基准测试框架，SeismicX-Cont推动了深度学习模型在实际地震监测场景中的鲁棒性评估，已成为连续地震波形分析领域的重要参考资源。

当前挑战

该数据集核心挑战在于解决连续地震监测中的双重困境：在高活动性窗口（如2019年7月）中，密集且重叠的事件序列要求模型具备极高的时间分辨率和召回能力，以避免遗漏；而在低活动性窗口（如2021年11月）中，长时间的平静期则对模型的精度和虚警控制提出严苛考验。构建过程中，需处理多台站、不同仪器响应、噪声特性差异以及分段波形合并与缺失填充等技术难题，同时确保大规模HDF5文件的读取效率与内存安全。

常用场景

经典使用场景

SeismicX-Cont作为连续地震波形基准数据集，其核心应用场景在于对地震监测与震相拾取算法进行系统性评估。该数据集精心选取了南加州、北加州与伯克利数字地震台网的连续记录，涵盖了2019年7月地震活动密集期与2021年11月地震稀疏期两种截然不同的活动状态，为研究者提供了在真实复杂环境下检测模型性能的理想测试平台。其独有的层级化HDF5存储结构与PyTorch数据加载器，使得大规模连续波形数据的高效处理与多通道、多台站协同分析成为可能，特别适用于验证深度学习模型在连续流数据上的泛化能力。

解决学术问题

该数据集精准回应了地震学领域中一个长期存在的挑战：如何在地震活动性差异显著的连续记录上公平、全面地评价自动监测算法的鲁棒性。传统事件驱动型数据集往往忽视背景噪声中的漏检与虚警问题，而SeismicX-Cont通过分离高、低活动性评估场景，促使研究者系统性地分析模型在地震丛集期间的检测极限与长时间静默期的误报抑制能力。这一设计为解决高密度事件下的时间分辨率瓶颈、低信噪比环境下的微弱信号识别以及模型对噪声统计特性的适应性等学术难题提供了标准化参照，显著推动了地震监测领域基准测试方法的科学化与规范化。

衍生相关工作

SeismicX-Cont的发布催生了一系列围绕连续波形基准评价的衍生成果。其中最典型的工作包括基于该数据集开发的多种轻量化震相拾取模型，如采用Transformer架构与卷积注意力机制的拾取器，其在高低活动性窗口上的对比表现成为后续研究的重要参照。此外，研究者利用数据集的双场景划分构建了针对漏检率与虚警率的联合优化框架，并延伸出基于连续波形背景噪声统计特性的不确定性量化方法。该数据集还作为评测平台，推动了半监督与自监督学习在地震事件检测中的探索，催生了若干关于迁移学习与域适应策略的基准实验，系统揭示了不同地质区域间数据分布差异对模型泛化的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集