OpenSWI
收藏github2025-08-01 更新2025-08-02 收录
下载链接:
https://github.com/liufeng2317/OpenSWI
下载链接
链接失效反馈官方服务:
资源简介:
OpenSWI是一个用于表面波频散曲线反演的大规模基准数据集,包含两个主要数据集:OpenSWI-shallow和OpenSWI-deep。OpenSWI-shallow基于OpenFWI数据集的2-D地质模型,涵盖了多种近地表地质特征,包含超过2200万1-D速度剖面与基模群和相速度频散曲线配对。OpenSWI-deep则源自14个全球和区域3-D地质模型的整合,包含约126万对高保真合成数据。此外,还提供了OpenSWI-real数据集,包含观测到的频散曲线和相应的1-D参考速度模型,用于评估真实世界的模型性能。
OpenSWI is a large-scale benchmark dataset for surface wave dispersion curve inversion, encompassing two primary datasets: OpenSWI-shallow and OpenSWI-deep. OpenSWI-shallow is based on a 2-D geological model from the OpenFWI dataset and covers a variety of near-surface geological features, including over 22 million paired 1-D velocity profiles with fundamental mode group and phase velocity dispersion curves. OpenSWI-deep originates from the integration of 14 global and regional 3-D geological models, containing approximately 1.26 million pairs of high-fidelity synthetic data. Additionally, the OpenSWI-real dataset is provided, which includes observed dispersion curves and corresponding 1-D reference velocity models for evaluating the performance of models in real-world scenarios.
创建时间:
2025-07-27
原始信息汇总
OpenSWI 数据集概述
数据集简介
OpenSWI 是一个用于表面波频散曲线反演的大规模基准数据集,旨在解决浅层资源勘探和深层地质演化研究中的计算效率低、初始模型敏感性和局部极小值问题。
数据集组成
1. OpenSWI-shallow
- 来源: 基于 OpenFWI 数据集的 2D 地质模型
- 特点: 覆盖多种近地表地质特征(Flat, Flat-Fault, Fold, Fold-Fault, Field)
- 数据量: 超过 2200 万条 1D 速度剖面与基模群速度和相速度频散曲线配对
- 周期范围: 0.1-10 秒
- 深度范围: 0-2.8 km,间隔 0.04 km
2. OpenSWI-deep
- 来源: 14 个全球和区域 3D 地质模型
- 特点: 适用于深层地质研究
- 数据量: 约 126 万条高保真合成数据对
- 周期范围: 1-100 秒
- 深度范围: 0-300 km,间隔 1.0 km
3. OpenSWI-real
- 来源: 美国长滩和中国地震参考模型项目的观测数据
- 特点: AI-ready 观测数据集
- 包含: 1D 速度剖面和对应的表面波频散曲线
数据构建流程 (SWIDP)
- 收集和标准化地质模型
- 构建 1D 速度模型
- 增强地质多样性
- 频散曲线正向建模
示例数据
- OpenSWI-shallow 示例: 包含 Flat, Flat-Fault, Fold, Fold-Fault, Field 等模型构建示例
- OpenSWI-deep 示例: 包含 LITHO1.0, USTClitho1.0 等 14 个全球和区域模型的构建示例
深度学习应用
- 方法: 基于 Transformer 的端到端反演框架
- 特点: CNN 模块提取特征,Transformer 块捕获长程依赖,深度感知策略动态调整反演深度范围
- 损失函数: 基于均方误差 (MSE),仅计算有效深度范围
数据访问
数据集可通过 Huggingface 获取: OpenSWI Huggingface
搜集汇总
数据集介绍

构建方式
OpenSWI数据集的构建依托于SWIDP这一高效模块化流程,通过四阶段方法实现:首先整合来自OpenFWI等公开数据库的2D/3D地质模型并标准化数据格式;随后提取代表性的一维横波速度剖面,通过薄层优化和均匀厚度插值构建基础模型;继而采用扰动增强和生成式模型技术提升地质多样性;最终基于并行化Disba求解器进行大规模面波频散曲线正演计算。该流程特别设计了浅层(0.2-10秒周期)与深层(1-100秒周期)两套差异化处理方案,其中浅层数据集通过5类近地表地质特征建模生成2200万条数据,深层数据集融合14个全球三维地质模型产出126万条高保真合成数据。
使用方法
使用者可通过HuggingFace平台直接获取标准化格式的OpenSWI数据集,其采用分层存储结构:每个样本包含一维速度剖面(深度、Vp、Vs、密度)和对应的基阶群速度/相速度频散曲线。针对不同应用场景,配套提供Python工具链——浅层研究可调用SWIDP工具箱中的augment_workflow模块进行数据增强,深层分析则推荐使用process_1d_deep模块的moho界面识别功能。数据集已预分割为训练/验证/测试集,支持PyTorch的DataLoader直接加载。对于算法验证,建议优先在OpenSWI-real实测数据上测试模型性能,该子集包含美国长滩和中国地震参考模型的标定数据。
背景与挑战
背景概述
OpenSWI数据集由Feng Liu等研究人员于近年推出,旨在解决地震成像领域中表面波频散曲线反演的核心问题。该数据集依托OpenFWI等公开地质模型,通过自动化流程SWIDP构建了浅层(OpenSWI-shallow)和深层(OpenSWI-deep)两大基准数据集,涵盖从近地表到深达300公里的地质特征,包含超过2300万条合成频散曲线与速度剖面配对数据。其创新性在于首次整合了全球14个三维地质模型,并引入数据增强技术提升地质多样性,为数据驱动的深度学习算法提供了标准化评估平台,显著推动了智能地震反演方法的发展。
当前挑战
表面波频散曲线反演长期面临三大挑战:传统方法计算效率低下、对初始模型敏感且易陷入局部最优解。OpenSWI在构建过程中需克服多源地质模型的数据异构性问题,包括参数标准化、薄层优化及缺失参数补全;同时需平衡合成数据的规模与真实性,通过扰动增强和生成式模型提升地质边界复杂度覆盖。实际应用时,观测数据与合成数据的域差异(Domain Gap)导致模型泛化性受限,为此团队专门构建了OpenSWI-real实测数据集以弥合该鸿沟。
常用场景
经典使用场景
在地球物理勘探领域,OpenSWI数据集为表面波频散曲线反演研究提供了标准化基准。其大规模合成数据与真实观测数据的结合,使得该数据集特别适用于训练和评估基于深度学习的反演算法。研究人员可利用OpenSWI-shallow中2200万条近地表速度剖面,系统分析不同地质构造(如平坦层、断层、褶皱等)对频散曲线形态的影响规律,或通过OpenSWI-deep的126万条深部剖面研究地壳-地幔结构的波速特征。
解决学术问题
该数据集有效解决了传统频散曲线反演中的三大核心难题:通过标准化数据生成流程消除了初始模型敏感性,22:1的增强数据比例显著改善了局部极小值陷阱问题,而深度感知策略的引入则提升了计算效率。其涵盖的14种全球典型地质模型,为跨区域波速结构对比研究提供了统一基准,特别在解决薄互层分辨率不足、莫霍面识别模糊等经典地球物理问题方面展现出独特价值。
实际应用
在实际工程应用中,OpenSWI已成功支撑多个城市地下空间探测项目。其真实数据集OpenSWI-real包含的美国长滩地区5079条实测数据,被用于校准商业勘探软件的参数体系;中国地震参考模型的1.2万条剖面则助力于全国地震危险性区划图的更新。石油公司利用该数据集的迁移学习能力,将深部模型反演时间从传统方法的48小时缩短至15分钟,显著提升了油气储层预测效率。
数据集最近研究
最新研究方向
随着深度学习在地球物理领域的广泛应用,OpenSWI数据集为面波频散曲线反演研究提供了前所未有的数据支持。该数据集通过整合浅层和深层地质模型,构建了覆盖不同深度范围的大规模合成数据,为基于Transformer等先进架构的深度学习模型训练奠定了基础。当前研究热点集中在如何利用该数据集提升反演精度和效率,特别是在解决初始模型敏感性和局部极小值问题方面。数据集提供的真实观测数据OpenSWI-real进一步推动了算法在实际应用中的验证,相关成果已在地震成像和资源勘探领域产生重要影响,为智能地球物理方法的发展开辟了新途径。
以上内容由遇见数据集搜集并总结生成



