field-scale-dataset
收藏Field-Scale Dataset 概述
基本信息
- 许可证: CC-BY-4.0
- 任务类型: 图像到图像 (image-to-image)
- 规模: 10K < 样本数 < 100K
- 维护方: Stanford University SubsurfaceGen 项目
- 标签: 地球科学、地震学、地球物理学、地下成像、速度模型、声波波场、波传播等
数据集规模
| 指标 | 数值 |
|---|---|
| 总索引行数 | 47,078 |
| 总 HDF5 文件数 | 42,760 |
| 2D 速度切片 | 4,276 |
| 波场数据 (5秒) | 21,380 |
| 炮集数据立方体 (8秒, 每切片64炮) | 21,380 |
| 训练样本 | 4,096 |
| 分布内测试样本 | 100 |
| 分布外测试样本 | 80 |
地质模型类型
- f3 (荷兰北海): 10 个模型
- fault (合成断层模型): 5 个模型
- gom (墨西哥湾): 10 个模型
- penobscot (加拿大近海, 用于分布外测试): 1 个模型
- salt_canopy (合成盐体模型): 4 个模型
- seam (SEG 高级建模): 12 个模型
频率波段
共包含5个频率波段: 3-6Hz, 3-8.5Hz, 3-12Hz, 3-17.5Hz, 3-25Hz
数据结构
数据文件组成
数据集包含四种数据类型,通过 data_type 字段区分:
| 数据类型 | 描述 | HDF5 键 | 形状 | 数量 |
|---|---|---|---|---|
model |
3D SOS平滑速度体 (深度截断至619) | velocity |
(619, 1000, 1000) | 42 |
slice |
2D速度切片 — 训练输入 x | velocity |
(nz, nx) | 4,276 |
wavefield |
2D声波波场 — 训练目标 y (5s) | wavefield |
(nt, nz, nx) | 21,380 |
gather |
多源炮集数据立方体 (8s, 64炮) | shot_gather_cube |
(64, n_time, 1000) | 21,380 |
Parquet 索引文件
数据集通过多个 Parquet 文件进行索引:
data/all.parquet— 完整索引 (25列, 所有行)data/train.parquet— 训练集索引data/test_in_dist.parquet— 分布内测试集索引data/test_out_dist.parquet— 分布外测试集索引
数据拆分
| 拆分 | 描述 |
|---|---|
train |
训练数据 (包含所有模型类型) |
test_in_dist |
分布内测试 (相同模型类型, 不同切片) |
test_out_dist |
分布外测试 (保留地质类型) |
拆分分配至 2D slice 行,并通过相同的 slice_id 继承给对应的 wavefield 和 gather 行。42 个 3D model 行的 split = null。
数据列 Schema (25列)
| # | 列名 | 类型 | 描述 |
|---|---|---|---|
| 1 | slice_id |
string | 关联相关文件的唯一标识符,3D模型该项为null |
| 2 | model_id |
string | 源3D模型ID (如 f3_042) |
| 3 | data_type |
string | model / slice / wavefield / gather |
| 4 | model_type |
string | 地质类别 (如 f3, gom, fault) |
| 5 | split |
string | train / test_in_dist / test_out_dist |
| 6 | file_path |
string | HDF5文件的相对路径 |
| 7 | orientation |
string | inline 或 crossline |
| 8 | slice_index |
int32 | 在原始3D体中的索引 |
| 9 | slice_location_m |
float32 | 物理位置 (米) |
| 10 | slice_axis |
int32 | 1 (inline) 或 2 (crossline) |
| 11 | volume_shape |
string | 源体维度 (如 960x1000x1000) |
| 12 | depth_samples |
int32 | 该数组的nz (因模型类型而异) |
| 13 | width_samples |
int32 | 该数组的nx |
| 14 | propagation_time_s |
float32 | 波场=5.0, 炮集数据立方体=8.0 |
| 15 | frequency_band |
string | 如 3-25Hz |
| 16 | f_min_hz |
float32 | 波段最小频率 |
| 17 | f_max_hz |
float32 | 波段最大频率 |
| 18 | velocity_min_m_per_s |
float32 | 最小速度 (m/s) |
| 19 | velocity_max_m_per_s |
float32 | 最大速度 (m/s) |
| 20 | velocity_mean_m_per_s |
float32 | 平均速度 (m/s) |
| 21 | velocity_std_m_per_s |
float32 | 速度标准差 (m/s) |
| 22 | source_x_km |
float32 | 震源X位置 (km) |
| 23 | source_z_km |
float32 | 震源Z深度 (km) |
| 24 | source_x_idx |
int32 | 震源X网格索引 |
| 25 | source_z_idx |
int32 | 震源Z网格索引 |
传播时间
- 波场: 仅存在 5秒 传播时间
- 炮集数据立方体: 仅存在 8秒 传播时间 (每切片64炮叠加)
目录结构
dataset_root/ ├── data/ │ ├── all.parquet │ ├── train.parquet │ ├── test_in_dist.parquet │ └── test_out_dist.parquet ├── models/ │ └── {model_type}d619/ │ └── {model_id}sos.h5 # shape (619, 1000, 1000) ├── slices/ │ └── slice{slice_id}.h5 ├── wavefields/ │ └── 5s/{freq_band}/ │ └── wavefield{slice_id}*.h5 └── shot_gathers/ └── 8s/{freq_band}/ └── shot_gather_cube{slice_id}.h5
数据生成细节
源数据处理
- 3D速度模型经结构导向平滑 (SOS) 处理 (Hale, 2009)
- 所有体积深度截断至 619 个采样点
- 生成适用于声波传播的平滑背景速度场
波场生成
通过求解常密度声波方程生成 2D 声波波场,使用 Devito 有限差分时域 (FDTD) 模拟:
| 参数 | 数值 |
|---|---|
| 求解器/内核 | Devito examples.seismic |
| 网格间距 | 10 m × 10 m |
| 时间步长 | 1.0 ms |
| FD 模板空间阶数 | 8 |
| 吸收边界 | 60 单元海绵层 |
| 顶部边界 | 自由表面 |
| 波场时间下采样 | 因子 14 |
| 检波器 | 每切片 1,000 个, 10 m 深度 |
| 震源深度 | 10 m |
震源子波
带限 Ricker 子波,经 4 阶 Butterworth 滤波器带通处理,并按 sqrt(bandwidth / 24 Hz) 进行振幅归一化:
| 波段 | f0 (Hz) | 带通范围 |
|---|---|---|
| 3-6 Hz | 4.5 | 3.0 – 6.0 |
| 3-8.5 Hz | 5.75 | 3.0 – 8.5 |
| 3-12 Hz | 7.5 | 3.0 – 12.0 |
| 3-17.5 Hz | 10.25 | 3.0 – 17.5 |
| 3-25 Hz | 14.0 | 3.0 – 25.0 |
震源 x 位置沿切片均匀随机采样 (距边缘 0.5 km 余量),随机种子固定为 42。
炮集数据立方体
- 每切片额外模拟 8秒 时长
- 包含 64个等间距震源 (同样 0.5 km 边缘余量)
- 每切片每波段生成一个炮集数据立方体
- 每个立方体形状为
(64, n_time, 1000)(震源数 × 下采样时间样本 × 检波器数) - 时间下采样因子 14
引用
bibtex @dataset{subsurfacegen_field_scale_dataset, title={Field-Scale Dataset: SOS-smoothed velocity volumes, 2D slices, wavefields, and 8s shot-gather cubes}, author={SubsurfaceGen, Stanford University}, year={2026}, url={https://huggingface.co/datasets/subsurfacegen/field-scale-dataset}, }
许可证
CC BY 4.0




