five

subsurfacegen/field-scale-dataset

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/subsurfacegen/field-scale-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Field-Scale Dataset是一个大规模的地球物理基准数据集,包含场尺度3D地下速度体积(经过SOS平滑处理,深度截断至619个样本)及其对应的2D速度切片、声波场和多源炮集立方体。数据集涵盖多种地质环境,支持五个频带(3-6、3-8.5、3-12、3-17.5、3-25 Hz),可用于波场预测、地震反演、从64源炮集立方体进行源感知训练以及跨保留地质和更宽频带的分布外评估。数据集由斯坦福大学的SubsurfaceGen项目维护。

A large-scale benchmark dataset of field-scale 3D subsurface velocity volumes (SOS-smoothed, depth-truncated to 619 samples) paired with 2D velocity slices, their corresponding acoustic wavefields, and multi-source shot-gather cubes. The dataset spans multiple geological settings and covers five frequency bands (3-6, 3-8.5, 3-12, 3-17.5, 3-25 Hz), supporting wavefield prediction, seismic inversion, source-aware training from the 64-source shot-gather cubes, and out-of-distribution evaluation across held-out geology and broader frequency bandwidths. Maintained by the SubsurfaceGen project at Stanford.
提供机构:
subsurfacegen
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由斯坦福大学SubsurfaceGen项目维护,旨在为地下速度模型与声波波场预测提供大规模基准。构建过程始于对公开及合成地震勘探数据的收集,涵盖F3、GOM、Fault、Salt Canopy、SEAM及Penobscot六类地质背景。原始三维速度体经结构导向平滑(SOS)处理并深度截断至619个采样点,以确保一致的计算网格。在此基础上,利用Devito框架求解常密度声波方程,对每个二维速度切片进行有限差分时域(FDTD)模拟,生成对应5秒传播时间的波场。为支持多源反演研究,每条切片另以64个等间距震源模拟8秒,形成炮集数据立方体。模拟采用10米网格间距、8阶空间精度及60个网格点的吸收边界,震源子波为带限Ricker子波,覆盖3-6、3-8.5、3-12、3-17.5及3-25 Hz五个频带。所有数据以HDF5格式存储,并辅以Parquet索引文件实现高效检索与元数据关联。
特点
该数据集的核心特点在于其规模、地质多样性与多任务适配性。总计包含42个三维速度体、4276个二维切片、21380个波场及相同数量的炮集立方体,覆盖了从陆相沉积到盐丘构造的丰富地质场景。特别设计的分布外测试集(Penobscot模型及宽频带数据)使得模型泛化能力评估成为可能。数据以slice_id为纽带,将速度切片、对应波场与炮集紧密关联,支持图像到图像、源感知训练及反演等多种任务。元数据列详尽记录了频率范围、速度统计量、震源位置及几何参数,便于精细化采样与消融实验。数据集明确划分训练集(4096条)、分布内测试集(100条)与分布外测试集(80条),且不同频带的数据独立存储,为频带迁移学习提供了天然实验平台。
使用方法
数据集的访问通过Parquet索引文件实现,用户可借助Pandas库快速加载并筛选所需数据子集。例如,通过合并训练集中同一slice_id的切片与波场条目,可轻松构建监督学习所需的输入-输出对。具体数据以HDF5格式存储,使用h5py库读取各文件中的velocity、wavefield及shot_gather_cube数据集,并可通过文件属性获取频率波段、模型类型等元信息。目录结构按数据类别(models、slices、wavefields、shot_gathers)与频带分层组织,支持按路径直接加载。代码示例展示了如何基于索引进行数据关联、过滤与批量加载,为后续的模型训练、评估及可视化工作提供了清晰的操作范式。
背景与挑战
背景概述
在地球物理勘探与地下成像领域,精确的波场预测与速度反演是解析复杂地质结构的关键技术。为此,斯坦福大学SubsurfaceGen项目于2026年发布了名为'field-scale-dataset'的大规模基准数据集,该数据集聚焦于三维地下速度体积与其二维切片、声波波场及多源炮集数据的配对问题。数据集由42个地质模型构成,涵盖F3、GOM、盐丘、断层及SEAM等多种真实与合成地质环境,经结构导向平滑处理后统一截断至619个深度采样点,在不同频带(3-25 Hz范围内5个子带)上通过Devito有限差分正演模拟生成波场与炮集记录。其设计核心在于为机器学习驱动的波场预测、地震反演及分布外泛化评估提供标准化、多尺度的实验基石,对推动地球物理与人工智能的交叉研究具有里程碑意义。
当前挑战
该数据集所解决的领域核心挑战包括:一、传统地震反演与波场模拟高度依赖物理方程迭代求解,计算成本极度高昂,难以适应大范围勘探需求,而数据驱动的学习方法亟需大规模、多地质背景的标注样本以克服单一模型泛化能力不足的局限;二、实际地下介质的速度场具有空间非均匀性与多尺度特征,不同频带下的波场响应差异显著,模型必须在宽频带内保持物理一致性,这要求训练数据覆盖从低频到高频的连续谱信息。在构建过程中,开发者面临的关键难题有:如何从原始野外采集的稀疏离散数据出发,通过结构导向平滑生成连续、平滑且适合波动方程模拟的背景速度场,同时保留盐丘、断层等关键构造特征;以及如何在有限的计算资源下,对每个切片进行长达5至8秒的高阶有限差分模拟(空间精度8阶,网格间距10米),并管理超过2万份波场与炮集文件的海量存储与索引问题。
常用场景
经典使用场景
在计算地球物理学领域,field-scale-dataset 的核心设计旨在于构建一个大规模、多频率的基准任务平台,用于对地下速度模型与声波波场之间的映射关系进行端到端的监督学习。该数据集将经过结构导向平滑处理的三维速度场切割为二维剖面,并配以对应频率带(3–6 Hz 至 3–25 Hz)下的声波波场与多源炮集立方体,天然适合训练图像到图像的深度学习模型。研究者可通过配对的速度切片与波场数据,探索不同地质构造(如盐丘、断层、陆架沉积)中波传播的物理规律,并利用分布外测试集评估模型对未知地质环境的泛化能力。这种设置使得该数据集成为基于数据驱动的全波形反演与波场替代建模研究的权威基准。
解决学术问题
该数据集精准回应了地球物理学中两个长期存在的学术瓶颈:其一,传统数值波场模拟计算成本高昂,难以支持大规模反演与参数敏感性分析;其二,现有公开数据集规模有限、地质多样性不足,导致深度学习模型在复杂地下结构上的可迁移性难以被系统评估。field-scale-dataset 通过提供 42760 个 HDF5 文件——涵盖 42 个三维速度体、4000 余个二维剖面及其在不同频带和激发条件下的波场响应——首次实现了对“速度-波场”映射关系在频带宽度、构造类型、源位置等多维因素下的可控实验。它为研究物理信息神经网络、神经算子以及隐式物理嵌入方法提供了可靠的训练与测试框架,推动了数据驱动与物理约束相融合的科学计算方法发展。
衍生相关工作
该数据集的发布催生了一系列具有代表性的后续工作:在模型架构层面,研究者基于其切片-波场配对数据探索了傅里叶神经算子与卷积-Transformer混合网络在高维波场预测中的表现;在训练策略方面,提出了多频带联合学习与频带自适应归一化方法,以解决不同频带能量分布差异引起的优化失衡问题;在可解释性研究中,利用分布外测试集系统分析了模型在未见地质体(如 Penobscot 深水扇)上的物理一致性,并引入了波动方程残差作为正则化约束;此外,该数据集还被用于验证深度生成模型(如扩散模型与变分自编码器)在地下速度模型先验分布学习中的潜力,为地质统计学建模开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作