five

加州地震事件数据集 (California Earthquake Event Dataset, CEED)|地震学数据集|地震数据数据集

收藏
arXiv2025-02-17 更新2025-02-19 收录
地震学
地震数据
下载链接:
https://huggingface.co/datasets/AI4EPS/CEED
下载链接
链接失效反馈
资源简介:
加州地震事件数据集(CEED)是由加州大学伯克利分校地震学实验室和加州理工学院地震学实验室共同创建的统一数据集,整合了北方加州地震数据中心(NCEDC)和南方加州地震数据中心(SCEDC)的地震记录。该数据集包含自动和手动确定的地震参数,如地震起源时间、源头位置、P/S波到达时间、初动极性和地面运动强度测量等。数据集按照年度事件格式组织,从2000年至2024年,便于与事件目录交叉引用,并支持未来年份的持续更新。这个全面开放的访问数据集旨在支持深度学习模型开发、创建增强型目录产品和地震过程、断层带结构以及地震风险研究等多样化应用。
提供机构:
加州大学伯克利分校地震学实验室,加州理工学院地震学实验室
创建时间:
2025-02-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
加州地震事件数据集(CEED)的构建是基于加利福尼亚州北部和南部地震数据中心的地震目录和连续波形数据。该数据集整合了自2000年至2024年间的地震事件,并包括了由人类分析师手动标注的参数,如地震发生时间、震源位置、P/S波到时、初动极性和地面运动强度测量等。数据集采用了事件为基础的格式,按年份组织,以便于与事件目录进行交叉参考,并便于未来的持续更新。
特点
CEED数据集的特点在于其全面性和开放性。它包含了来自加利福尼亚州广泛监测网络的地震记录,涵盖了多种类型的地震活动,如构造地震、地热场诱导的地震活动、火山地震以及海底事件。数据集的规模庞大,包含了超过410万个带标签的波形,使其成为2023年为止最大的机器学习数据集之一。此外,数据集采用了事件为基础的层级格式,便于与单站和多站深度学习模型兼容,并支持与USGS综合地震目录的交叉参考。
使用方法
CEED数据集的使用方法主要涉及机器学习和云计算应用。用户可以通过Hugging Face平台轻松访问数据集,并使用Git或datasets包进行下载。数据集已经成功用于训练GPD和PhaseNet等深度学习模型,并支持开发更先进的模型,如PhaseNet+和QuakeFormer。此外,数据集还支持在AWS云平台上进行大规模地震数据分析,利用云计算的资源弹性,提高数据访问速度和处理效率。
背景与挑战
背景概述
加州地震事件数据集(CEED)是一个综合性的地震数据集,旨在支持机器学习和云计算在地震学中的应用。该数据集由加州大学伯克利分校的伯克利地震实验室和加州理工学院地震实验室的研究人员共同创建,整合了自2000年至2024年间来自北加州地震数据中心(NCEDC)和南加州地震数据中心(SCEDC)的地震记录。CEED数据集包括自动和手动确定的参数,如地震发生时间、震源位置、P/S波到达时间、初动极性和地面运动强度测量等。该数据集采用基于事件的格式,便于与事件目录进行交叉引用,并支持未来年份的持续更新。这一全面的开源数据集旨在支持各种应用,包括开发深度学习模型、创建增强的目录产品以及研究地震过程、断层区结构和地震风险。
当前挑战
CEED数据集面临的挑战包括:1)地震目录中的错误标签可能会影响模型训练和性能;2)数据集中缺少非目录事件的标签,需要进一步过滤和识别;3)数据集的不平衡分布,如震级、震源深度、信噪比等,可能限制模型对其他地区和不同类型地震的泛化能力。此外,随着数据量的不断增长,需要建立稳健的质量控制机制来维护数据完整性,并防止模型训练和应用中出现偏差。未来,将探索自动标签校正机制,并考虑将分布式声学传感(DAS)和GPS数据等更多类型的数据集成到数据集中,以扩大其应用范围。
常用场景
经典使用场景
加州地震事件数据集(CEED)的经典使用场景包括地震预测、地震学研究和地震监测。该数据集提供了丰富的地震事件记录,包括地震的起源时间、位置、震级、P/S波到达时间、初动极性和地面运动强度测量等参数。通过分析这些数据,研究人员可以更好地理解地震发生的过程、地震带的构造和地震风险。此外,CEED还可以用于训练深度学习模型,以提高地震检测和定位的准确性。
衍生相关工作
CEED衍生了许多相关工作,如GPD、PhaseNet和PhaseNO等深度学习模型。这些模型可以用于地震检测、定位和预测,并通过分析CEED中的地震事件记录来提高其准确性。此外,CEED还可以用于研究地震发生的物理机制和地震带的构造,以更好地理解地震风险。
数据集最近研究
最新研究方向
该数据集的最新研究方向包括利用深度学习技术进行地震事件的检测、定位和震源机制解算,以及通过云计算平台进行大规模地震数据分析。这些研究旨在提高地震监测的准确性和效率,并帮助科学家更好地理解地震过程和地震风险。
相关研究论文
  • 1
    California Earthquake Dataset for Machine Learning and Cloud Computing加州大学伯克利分校地震学实验室,加州理工学院地震学实验室 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

Office-31, Office-Home, VisDA-2017, DomainNet

Office-31是一个包含31个类别的办公用品图像数据集,Office-Home包含65个类别的日常用品图像数据集,VisDA-2017是一个用于视觉领域自适应挑战的数据集,DomainNet是一个大规模的多领域图像数据集。

github 收录