field-scale-dataset

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/subsurfacegen/field-scale-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Field-Scale Dataset 是一个大规模的三维地下速度体积数据集，包含经过结构导向平滑（SOS）处理的深度截断至619个样本的三维体积，以及与之配对的二维速度切片、声波场和多源炮集立方体。数据集涵盖多种地质环境，支持五个频带（3-6、3-8.5、3-12、3-17.5、3-25 Hz），适用于波场预测、地震反演和基于64源炮集立方体的源感知训练。数据集包含42个三维速度体积、4,276个二维切片、21,380个波场文件和21,380个炮集立方体，分为训练集、分布内测试集和分布外测试集。数据集结构通过Parquet索引文件组织，每个HDF5文件包含详细的元数据信息。数据集由斯坦福大学SubsurfaceGen项目维护，采用CC BY 4.0许可。

The Field-Scale Dataset is a large-scale 3D subsurface velocity volume dataset, including 3D volumes with structural-oriented smoothing (SOS) processing truncated to 619 samples in depth, paired 2D velocity slices, acoustic wavefields, and multi-source shot gathers cubes. The dataset covers various geological environments and supports five frequency bands (3-6, 3-8.5, 3-12, 3-17.5, 3-25 Hz), suitable for wavefield prediction, seismic inversion, and source-aware training based on 64-source shot gathers cubes. The dataset contains 42 3D velocity volumes, 4,276 2D slices, 21,380 wavefield files, and 21,380 shot gathers cubes, divided into training sets, in-distribution test sets, and out-of-distribution test sets. The dataset structure is organized via Parquet index files, with each HDF5 file containing detailed metadata. The dataset is maintained by Stanford Universitys SubsurfaceGen project and is licensed under CC BY 4.0.

创建时间：

2026-04-24

原始信息汇总

Field-Scale Dataset 概述

基本信息

许可证: CC-BY-4.0
任务类型: 图像到图像 (image-to-image)
规模: 10K < 样本数 < 100K
维护方: Stanford University SubsurfaceGen 项目
标签: 地球科学、地震学、地球物理学、地下成像、速度模型、声波波场、波传播等

数据集规模

指标	数值
总索引行数	47,078
总 HDF5 文件数	42,760
2D 速度切片	4,276
波场数据 (5秒)	21,380
炮集数据立方体 (8秒, 每切片64炮)	21,380
训练样本	4,096
分布内测试样本	100
分布外测试样本	80

地质模型类型

f3 (荷兰北海): 10 个模型
fault (合成断层模型): 5 个模型
gom (墨西哥湾): 10 个模型
penobscot (加拿大近海, 用于分布外测试): 1 个模型
salt_canopy (合成盐体模型): 4 个模型
seam (SEG 高级建模): 12 个模型

频率波段

共包含5个频率波段: 3-6Hz, 3-8.5Hz, 3-12Hz, 3-17.5Hz, 3-25Hz

数据结构

数据文件组成

数据集包含四种数据类型，通过 data_type 字段区分:

数据类型	描述	HDF5 键	形状	数量
`model`	3D SOS平滑速度体 (深度截断至619)	`velocity`	(619, 1000, 1000)	42
`slice`	2D速度切片 — 训练输入 x	`velocity`	(nz, nx)	4,276
`wavefield`	2D声波波场 — 训练目标 y (5s)	`wavefield`	(nt, nz, nx)	21,380
`gather`	多源炮集数据立方体 (8s, 64炮)	`shot_gather_cube`	(64, n_time, 1000)	21,380

Parquet 索引文件

数据集通过多个 Parquet 文件进行索引:

data/all.parquet — 完整索引 (25列, 所有行)
data/train.parquet — 训练集索引
data/test_in_dist.parquet — 分布内测试集索引
data/test_out_dist.parquet — 分布外测试集索引

数据拆分

拆分	描述
`train`	训练数据 (包含所有模型类型)
`test_in_dist`	分布内测试 (相同模型类型, 不同切片)
`test_out_dist`	分布外测试 (保留地质类型)

拆分分配至 2D slice 行，并通过相同的 slice_id 继承给对应的 wavefield 和 gather 行。42 个 3D model 行的 split = null。

数据列 Schema (25列)

#	列名	类型	描述
1	`slice_id`	string	关联相关文件的唯一标识符，3D模型该项为null
2	`model_id`	string	源3D模型ID (如 f3_042)
3	`data_type`	string	`model` / `slice` / `wavefield` / `gather`
4	`model_type`	string	地质类别 (如 f3, gom, fault)
5	`split`	string	`train` / `test_in_dist` / `test_out_dist`
6	`file_path`	string	HDF5文件的相对路径
7	`orientation`	string	`inline` 或 `crossline`
8	`slice_index`	int32	在原始3D体中的索引
9	`slice_location_m`	float32	物理位置 (米)
10	`slice_axis`	int32	1 (inline) 或 2 (crossline)
11	`volume_shape`	string	源体维度 (如 960x1000x1000)
12	`depth_samples`	int32	该数组的nz (因模型类型而异)
13	`width_samples`	int32	该数组的nx
14	`propagation_time_s`	float32	波场=5.0, 炮集数据立方体=8.0
15	`frequency_band`	string	如 3-25Hz
16	`f_min_hz`	float32	波段最小频率
17	`f_max_hz`	float32	波段最大频率
18	`velocity_min_m_per_s`	float32	最小速度 (m/s)
19	`velocity_max_m_per_s`	float32	最大速度 (m/s)
20	`velocity_mean_m_per_s`	float32	平均速度 (m/s)
21	`velocity_std_m_per_s`	float32	速度标准差 (m/s)
22	`source_x_km`	float32	震源X位置 (km)
23	`source_z_km`	float32	震源Z深度 (km)
24	`source_x_idx`	int32	震源X网格索引
25	`source_z_idx`	int32	震源Z网格索引

传播时间

波场: 仅存在 5秒传播时间
炮集数据立方体: 仅存在 8秒传播时间 (每切片64炮叠加)

目录结构

dataset_root/ ├── data/ │ ├── all.parquet │ ├── train.parquet │ ├── test_in_dist.parquet │ └── test_out_dist.parquet ├── models/ │ └── {model_type}d619/ │ └── {model_id}sos.h5 # shape (619, 1000, 1000) ├── slices/ │ └── slice{slice_id}.h5 ├── wavefields/ │ └── 5s/{freq_band}/ │ └── wavefield{slice_id}*.h5 └── shot_gathers/ └── 8s/{freq_band}/ └── shot_gather_cube{slice_id}.h5

数据生成细节

源数据处理

3D速度模型经结构导向平滑 (SOS) 处理 (Hale, 2009)
所有体积深度截断至 619 个采样点
生成适用于声波传播的平滑背景速度场

波场生成

通过求解常密度声波方程生成 2D 声波波场，使用 Devito 有限差分时域 (FDTD) 模拟:

参数	数值
求解器/内核	Devito `examples.seismic`
网格间距	10 m × 10 m
时间步长	1.0 ms
FD 模板空间阶数	8
吸收边界	60 单元海绵层
顶部边界	自由表面
波场时间下采样	因子 14
检波器	每切片 1,000 个, 10 m 深度
震源深度	10 m

震源子波

带限 Ricker 子波，经 4 阶 Butterworth 滤波器带通处理，并按 sqrt(bandwidth / 24 Hz) 进行振幅归一化:

波段	f0 (Hz)	带通范围
3-6 Hz	4.5	3.0 – 6.0
3-8.5 Hz	5.75	3.0 – 8.5
3-12 Hz	7.5	3.0 – 12.0
3-17.5 Hz	10.25	3.0 – 17.5
3-25 Hz	14.0	3.0 – 25.0

震源 x 位置沿切片均匀随机采样 (距边缘 0.5 km 余量)，随机种子固定为 42。

炮集数据立方体

每切片额外模拟 8秒时长
包含 64个等间距震源 (同样 0.5 km 边缘余量)
每切片每波段生成一个炮集数据立方体
每个立方体形状为 (64, n_time, 1000) (震源数 × 下采样时间样本 × 检波器数)
时间下采样因子 14

引用

bibtex @dataset{subsurfacegen_field_scale_dataset, title={Field-Scale Dataset: SOS-smoothed velocity volumes, 2D slices, wavefields, and 8s shot-gather cubes}, author={SubsurfaceGen, Stanford University}, year={2026}, url={https://huggingface.co/datasets/subsurfacegen/field-scale-dataset}, }

许可证

CC BY 4.0

搜集汇总

数据集介绍

构建方式

该数据集源自斯坦福大学SubsurfaceGen项目，旨在为地球物理学中的地震波场预测与反演研究提供大规模基准。其构建始于对六类公开及合成三维地下速度模型（包括F3、GOM、Fault、Salt Canopy、SEAM及Penobscot）进行结构导向平滑（SOS）处理并深度截断至619个采样点，以生成平滑背景速度场。随后，利用Devito框架求解恒定密度声波方程，在每张二维速度切片上执行有限差分时域模拟，产生5秒传播时间的波场数据；同时，为每条切片部署64个等间距震源进行8秒模拟，生成多源炮集数据立方体。所有模拟覆盖五个频带（3-6Hz至3-25Hz），并通过Parquet侧车索引文件将模型、切片、波场及炮集文件关联，形成结构化的数据集体系。

特点

该数据集具有鲜明的多维度与规模化特征。它整合了42个三维速度体、4276张二维切片、21380个波场及同等数量的炮集立方体，总计逾4.7万条索引记录。其数据按地质类型划分为六类，并精心设置了分布内与分布外测试集，覆盖未见地质构造及更宽频带，支持模型的泛化评估。所有模拟均采用高精度参数（空间间距10米、时间步长1毫秒、八阶空间精度），并通过带限Ricker子波与能量归一化确保物理一致性。丰富的元数据列（25项）详细记录了速度统计、震源位置及频带信息，为科学研究提供了详尽的上下文。

使用方法

研究者可通过加载Parquet索引文件高效探索数据集，利用slice_id字段将速度切片、波场及炮集配对，构建监督学习样本。训练时，可指定频带筛选输入-目标对；对于深度诊断，可直接读取HDF5文件中的三维速度体或二维切片。炮集立方体支持源感知（source-aware）训练，而分布外测试集专用于评估模型对未知地质体与宽频信号的鲁棒性。建议优先使用切片与波场作为主任务数据，将三维模型用于条件生成或物理约束初始化，整体迁移至深度学习框架时，索引文件的元数据可作为数据加载器的直接来源。

背景与挑战

背景概述

该数据集由斯坦福大学SubsurfaceGen项目于2026年创建，专注于地球物理学中地下速度模型的深度学习研究。核心研究问题在于如何利用大规模、多频带的地震波场数据，提升波场预测与地震反演的精度与泛化能力。该数据集包含42个经过结构导向平滑的三维声波速度体，涵盖六种地质类型（如F3、GOM、盐丘等），并衍生出超过两万个二维速度切片、波场及多源炮集数据，覆盖五个频带。其发布为地球科学领域的物理信息学习与基准测试提供了关键资源，推动了深度学习在地震成像与反演中的实际应用。

当前挑战

该数据集解决的领域问题主要包括：1）地下速度模型与波场之间的非线性映射关系复杂，传统方法难以高效建模；2）多频带与多地质场景下的泛化能力不足，且野外实测数据稀缺。在构建过程中，面临的主要挑战包括：1）对42个三维模型进行结构导向平滑处理，需确保不同地质特征的保真度；2）利用Devito进行有限差分模拟时，需平衡计算效率与波场精度，尤其是对多源炮集数据的八秒传播时间仿真；3）设计五频带的带限Ricker子波，并确保能量在不同带宽间物理一致性，避免引入数值误差。

常用场景

经典使用场景

在计算地球物理与勘探地震学领域中，field-scale-dataset 数据集因其完备的配对结构而成为构建与评估深度学习模型的经典基准。研究者常以二维速度切片作为网络输入，以对应的声波波场作为预测目标，训练端到端的图像到图像映射模型。该数据集覆盖了F3、GOM、盐丘、断层等多种地质背景，并提供了从3-6 Hz至3-25 Hz五个频带的波场数据，能够充分检验模型在不同频率尺度下的泛化能力。训练样本与测试样本依据地质类别严格划分，内含分布内与分布外两组测试集，这为标准化的模型性能评估提供了可靠基础。截至目前，该数据集已广泛应用于波场正演模拟加速、地震波传播替代建模以及无监督或物理信息驱动的学习框架验证等前沿研究方向。

实际应用

在实际勘探生产中，该数据集展现出广阔的应用潜力。石油与天然气工业可利用基于它训练的深度学习模型，在给定地下速度结构后快速估算声波波场，从而大幅压缩全波形反演与地震成像流程中正演模拟的计算耗时。多源炮集数据（每张切片包含64个等间距震源产生的8秒记录）为震源感知型网络结构的设计提供了训练素材，有助于发展对于震源位置与子波特征具有鲁棒性的地震数据预测器。此外，该数据集可直接服务于地下介质参数反演方法的验证——波场作为物理约束信号，已被广泛应用于物理信息神经网络与数据-物理混合驱动的反演框架。由于数据集涵盖了不同频带，它也能协助工业界设计在低频至中高频范围内均表现稳定的替代模型，为海上与陆上多分量地震数据的高效处理提供技术支撑。

衍生相关工作

该数据集的发布催生了一系列具有影响力的衍生工作。依托其完善的配对结构与多频带设计，研究者开发了基于卷积神经网络与Transformer架构的波场代理模型，这些工作系统评估了网络深度、感受野大小以及注意力机制对波场预测精度的影响。在物理信息学习领域，该数据集被用作与波动方程残差约束相结合的混合训练框架的基准平台，验证了物理损失项在增强预测物理合理性方面的作用。针对分布外泛化挑战，涌现出多任务学习、领域自适应以及频带渐进式训练等方法，这些工作均以该数据集的分布内与分布外测试划分为评价准则。多源炮集数据还启发了震源编码与多震源联合反演策略的深度学习实现，推动了端到端地震反演路线图的发展。这些衍生成果共同标志着基于数据的地震波场研究进入了一个系统化、标准化与可对比的崭新阶段。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集