LENDB (Local Earthquakes and Noise DataBase)
收藏arXiv2020-08-07 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.3648232
下载链接
链接失效反馈官方服务:
资源简介:
LENDB是一个全球范围的3分量地震波基准数据集,由罗马第三大学科学系和意大利国家地球物理与火山研究所创建。该数据集包含1,244,942条3分量地震波记录,分布在全球1487个宽带或超宽带接收器上,其中629,095条标记为地震(EQ),615,847条标记为噪声(AN)。数据集的创建过程涉及从多个地震事件目录中下载数据,并根据质量标准进行筛选和标记。LENDB数据集适用于多种地震学和信号处理任务,特别适合机器学习应用,旨在解决小规模局部地震的自动检测问题,为地震学和更广泛的科学社区提供了一个测试平台。
LENDB is a global 3-component seismic wave benchmark dataset developed by the Department of Science of Roma Tre University and the Italian National Institute of Geophysics and Volcanology. This dataset contains 1,244,942 3-component seismic wave records collected from 1,487 broadband or ultra-broadband seismic receivers across the globe. Among these records, 629,095 are labeled as earthquakes (EQ) and 615,847 are labeled as noise (AN). The dataset was constructed by downloading data from multiple seismic event catalogs, followed by screening and labeling based on predefined quality criteria. The LENDB dataset supports a wide range of seismological and signal processing tasks, and is particularly suitable for machine learning applications. It is designed to tackle the automatic detection of small-scale local earthquakes, serving as a testbed for the seismological community and the broader scientific community.
提供机构:
罗马第三大学科学系,意大利
创建时间:
2020-08-07
搜集汇总
数据集介绍

构建方式
在地震学领域,构建高质量的标注数据集对于推动机器学习应用至关重要。LENDB数据集的构建过程体现了严谨的科学方法,其核心在于从全球范围内1487个宽频或超宽频地震台站收集三分量地震图。研究团队依据多个公开地震目录,通过自动化流程筛选本地地震事件,并设定严格的质量标准:最大震源距不超过134公里,事件时间需与其他邻近事件保持至少100秒前和600秒后的间隔,以避免波形叠加干扰。此外,引入感知半径函数,根据震级和震源距动态调整数据收录范围,确保收录的地震信号在台站处具有可辨识性。噪声数据的采集则遵循相同的时间隔离准则,随机下载无事件干扰的时段。所有波形均经过去均值、去趋势、带通滤波(0.1-5 Hz)及仪器响应校正等预处理,并切割为27秒长度、采样率20 Hz的时间窗口,最终形成包含629,095个地震标注(EQ)和615,847个噪声标注(AN)的庞大数据库。
特点
LENDB数据集展现出多方面的显著特征,其全球性覆盖尤为突出,台站分布广泛,涵盖多样化的地质构造环境,从而为模型泛化提供了坚实保障。数据规模庞大,总计超过124万条三分量地震图,源自30余万次独立地震事件,震级分布基本遵循古登堡-里克特定律,尤其在震级高于2.5时表现出良好的完整性。数据集结构设计科学,采用HDF5格式存储,清晰区分地震与噪声数据组,并为每条记录附有丰富的元数据,包括台站信息、事件参数(如震级、震中位置、深度)以及几何参数(如震中距、方位角)。这种设计不仅便于机器学习模型直接读取,也为深入的地球物理分析提供了可能。数据质量经过严格把控,通过视觉检查剔除噪声过高或信号不清晰的记录,确保了标注的可靠性。
使用方法
该数据集为地震信号处理与机器学习研究提供了重要的基准平台。使用者可通过公开的Zenodo存储库获取HDF5格式的数据文件,并利用其清晰的数据结构进行高效读取。数据集天然适用于监督学习任务,特别是地震与噪声的二分类问题。用户可借鉴原论文的地理划分策略(训练、验证、测试集),或根据自身研究目标重新划分数据,以训练和评估检测、分类或回归模型。对于地震检测算法开发,可直接将27秒长度的三分量波形作为模型输入,结合附带的元数据可进一步用于事件定位或震级估算等任务。此外,庞大的噪声数据子集可用于环境噪声研究、数据去噪或异常检测等信号处理应用。研究人员也可利用其全球覆盖特性,探究不同构造区域地震波传播特征的差异性,或将其作为测试新信号处理方法的通用数据集。
背景与挑战
背景概述
LENDB(Local Earthquakes and Noise DataBase)数据集于2020年由意大利罗马第三大学、国家地球物理与火山学研究所等机构的研究团队构建,旨在为地震学与信号处理领域提供大规模标注的三分量地震图基准数据。该数据集聚焦于局部地震检测这一核心科学问题,通过整合全球1487个宽频带地震台站记录的超过120万条地震波形,涵盖了30余万次局部地震事件及环境噪声样本。其创建响应了机器学习在地球科学中日益增长的应用需求,特别是针对接收器稀疏区域的小震检测难题,为开发自动化、高精度的单台地震检测算法奠定了数据基础,显著推动了地震监测技术的智能化进程。
当前挑战
LENDB数据集致力于解决局部地震检测中的领域挑战,即如何在复杂地质构造与高噪声背景下,精准识别小震级事件,这对于理解地震相互作用与灾害预警至关重要。在构建过程中,研究团队面临多重技术难题:首先,数据标注需平衡事件可感知半径与波形质量,以应对全球不同区域的地质衰减特性差异;其次,确保噪声样本不受远震干扰,同时避免因台站噪声水平过高而导致标注失效;此外,数据集的全球分布虽提升了泛化能力,但部分区域(如吉尔吉斯斯坦网络)的高噪声环境仍对模型检测性能构成显著挑战,突显了地质多样性对算法鲁棒性的考验。
常用场景
经典使用场景
在地震学领域,随着全球地震台站数据的爆炸式增长,自动化处理海量地震波形成为迫切需求。LENDB数据集作为全球范围内构建的标准化基准,其经典应用场景在于为机器学习算法提供大规模、高质量的训练与测试样本,特别适用于单台站地震检测任务。该数据集通过精心标注的62万余条地震波形与61万余条噪声波形,覆盖了1487个宽频带台站的多样化地质构造环境,使得基于卷积神经网络的模型能够实现高达93%以上的检测准确率,有效推动了地震信号自动识别技术的发展。
衍生相关工作
LENDB数据集的发布催生了多项经典衍生研究,尤其在深度学习与地震信号处理交叉领域。例如,研究者借鉴其架构开发了改进型卷积神经网络,用于全球地震检测与特征分析;部分工作则聚焦于波形去噪与异常检测,利用数据集中包含的噪声样本优化信号提取算法。此外,该数据集常被用作基准测试平台,与同期发布的STEAD等全球数据集相互补充,共同推动了地震学机器学习模型标准化比较与性能评估框架的建立。
数据集最近研究
最新研究方向
在地球物理与人工智能交叉领域,LENDB数据集正推动地震检测技术向智能化与泛化能力提升方向演进。该数据集凭借其全球尺度的三分量地震波形标注,为监督式机器学习算法提供了丰富的训练基础,尤其聚焦于局部微震事件的精准识别。当前前沿研究致力于优化卷积神经网络架构,探索引入循环层以捕捉地震波相位间的时序关联,从而增强模型在复杂地质环境与高噪声背景下的鲁棒性。相关热点事件包括实时地震预警系统的算法迭代与历史地震目录的完整性补全,这些应用在台站稀疏区域展现出显著价值。LENDB的开放共享不仅加速了地震学界的算法验证进程,也为信号处理领域提供了高质量的时序数据基准,对提升地质灾害监测效能与地球内部成像精度具有深远意义。
相关研究论文
- 1Local earthquakes detection: A benchmark dataset of 3-component seismograms built on a global scale罗马第三大学科学系,意大利 · 2020年
以上内容由遇见数据集搜集并总结生成



