SeismicX-Cont
收藏数据集概述:SeismicX-Cont — 连续地震数据集
SeismicX-Continuous Dataset 是一个专为评估连续波形记录上的地震监测算法而设计的基准数据集。与传统的基于事件的数据集不同,它强调连续数据流,支持在高活动和低活动地震期进行稳健比较。该数据集与 SeismicX DataLoader 集成,提供了一个用于大规模波形分析的 AI 就绪管道。
1. 数据来源
数据集包含来自三个区域地震网络的连续波形记录:
- CI — 南加州地震网络
- NC — 北加州地震网络
- BK — 伯克利数字地震网络 这些网络提供了不同的观测条件,包括仪器响应、通道配置、噪声特性和台站密度等方面的差异。
2. 时间窗口与数据内容
提供了两个具有代表性的 7 天连续时间窗口:
- 高活动窗口:2019年7月1日 至 2019年7月8日
- 低活动窗口:2021年11月8日 至 2021年11月15日
数据内容包括:
- 三分量波形数据(HDF5 格式)
- 台站元数据(经纬度、海拔、有效期)
- 合并为连续迹线的多段波形记录
- 源自 CEED 数据集的事件标注
3. 基准设计
数据集被设计为 双场景基准,分为高活动和低活动评估机制:
- 高活动窗口:地震密集且事件重叠,评估重点为召回率、漏检率和时间分辨率。
- 低活动窗口:地震稀疏且安静期长,评估重点为精度、误报率、噪声鲁棒性和模型稳定性。
4. 数据结构
数据集采用分层的 HDF5 布局,格式如下:
/年 /日 /台站 /网络.台站.位置 /波形 /通道 /段
每个通道可包含多个波形段,加载时会自动合并。
5. SeismicX DataLoader
文件:utils/hdf5_waveform_dataset.py
这是一个 PyTorch Dataset,封装了分层 HDF5 文件并提供即用型波形张量和完整台站元数据,专为大规模多文件数据集的单次推理设计,内存占用小。
关键特性:
- 多文件输入:支持单个文件、目录、通配符模式或文件路径列表。
- 通道族分组:波形按通道代码前两个字符分组,形成单一样本。
- 自动三分量构建:自动排列通道。
- 多段合并:合并连续 HDF5 段并填充间隙。
- 可选重采样:线性插值重采样至目标采样率。
- 仪器响应处理:可移除或模拟仪器响应。
- 内存安全的文件句柄缓存:仅保持当前 HDF5 文件句柄打开,内存占用保持 O(1)。
输出模式:
mode="single":每个通道一个样本,波形形状为[T]。mode="three"(推荐):每个通道族一个样本,分量排列为 E/N/Z,波形形状为[T, 3]。mode="multi":每个通道族一个样本,所有可用通道堆叠,波形形状为[T, C]。
输出示例字典: python { "mode": "three", "h5_file": "data/hdf5/continuous_waveform_usa_20190701.h5", "station_id": "BK.BDM.00", "channel_family": "BH", "channels": ["BHE", "BHN", "BHZ"], "waveform": torch.Tensor, "sampling_rate": 100.0, "starttime": "2019-07-01T00:00:00.000000Z", "station_info": { ... }, "channel_info": { ... }, # ... 其他元数据 }
6. 评估指标
推荐的评估指标:
- 召回率(检测率):匹配的标注拾取比例。
- 精度:对应标注事件的自动拾取比例。
- F1 分数:精确率和召回率的调和平均数。
- 漏检率:1 - 召回率。
- 误报率:单位时间内无匹配标签的自动拾取数。
- 残差分布:
auto_time - label_time的均值、标准差和稳健百分位数。
7. 数据集存储规模
数据集大小在 100GB 到 1TB 之间。




