SiliciclasticReservoirs
收藏数据集概述:Siliciclastic Reservoirs (1M Synthetic 3D Geological Cubes)
基本信息
- 数据集名称:Siliciclastic Reservoirs
- 许可证:Creative Commons Attribution 4.0 International (CC-BY-4.0)
- 语言:英语
- 样本规模:1,000,000 < n < 10,000,000
- 任务类别:图像分割、图像分类、文本到图像、其他
- 标签:地质学、地球科学、储层、合成数据、体素、3D、流匹配、扩散模型、生成建模、地下、石油、地下水、碳封存、条件生成
数据集内容
该数据集包含 1,000,000 个合成三维碎屑岩储层地质立方体,基于规则驱动的沉积学模拟生成,涵盖浊积叶瓣体、6种河道架构和三角洲扇分流河道。每个立方体体素化为 (64, 64, 32) 个单元,每个样本包含岩相、孔隙度、渗透率以及一组结构化的地质条件参数。数据集旨在训练地下地质的 条件生成模型(如流匹配、扩散模型)。
数据集架构(Layer Types)
数据集包含8种储层架构,具体分布如下:
| 架构类型 (layer_type) | 描述 | 样本数 |
|---|---|---|
lobe |
浊积叶瓣体(深水重力流沉积) | 200,000 |
channel:PV_SHOESTRING |
古河谷鞋带状砂岩 | 100,000 |
channel:CB_JIGSAW |
河道-坝体,拼图式连通性 | 150,000 |
channel:CB_LABYRINTH |
河道-坝体,迷宫状连通性 | 100,000 |
channel:SH_DISTAL |
远端席状砂岩 | 100,000 |
channel:SH_PROXIMAL |
近端席状砂岩 | 100,000 |
channel:MEANDER_OXBOW |
多层曲流带,含牛轭湖充填 | 100,000 |
delta |
进积分流扇三角洲 | 150,000 |
数据文件结构
每个样本包含4个体素数组
| 文件 | 数据类型 | 形状 | 描述 |
|---|---|---|---|
facies.npy |
int8 |
(N, 64, 64, 32) |
二值岩相:0 = 泥岩, 1 = 砂岩(主要训练信号) |
facies_alluvsim.npy |
int8 |
(N, 64, 64, 32) |
6类岩相:-1 (FF), 0 (FFCH), 1 (CS), 2 (LV), 3 (LA), 4 (CH) |
poro.npy |
float16 |
(N, 64, 64, 32) |
孔隙度,范围 [0, 0.5] |
perm.npy |
float16 |
(N, 64, 64, 32) |
渗透率(毫达西),范围 [0, 60000] |
目录结构
SiliciclasticReservoirs/ ├── README.md ├── DATASHEET.md ├── splits/ ← 确定性 90/5/5 分层划分 │ ├── train.parquet ← 900,000 行 │ ├── validation.parquet ← 50,000 行 │ └── test.parquet ← 50,000 行 ├── lobe/ ← 200,000 样本,256 分片 ├── channel_pv_shoestring/ ← 100,000 样本,256 分片 ├── channel_cb_labyrinth/ ← 100,000 样本,256 分片 ├── channel_cb_jigsaw/ ← 150,000 样本,256 分片 ├── channel_sh_distal/ ← 100,000 样本,256 分片 ├── channel_sh_proximal/ ← 100,000 样本,256 分片 ├── channel_meander_oxbow/ ← 100,000 样本,256 分片 └── delta/ ← 150,000 样本,256 分片
每个分片大小约 380 MB 至 1.2 GB。
条件参数
Slim parquet(params_slim.parquet)— 训练用条件参数
包含8种架构通用的列及家族特有列。
通用列:
layer_type(str):8种架构字符串之一caption(str):人类可读描述ntg(float32):实际净毛比 [0, 1]poro_ave(float32):实际平均孔隙度perm_ave(float32):实际平均log10(perm)azimuth(float32):区域流动方向 [0, 360)width_cells(float32):特征水平范围(细胞数)depth_cells(float32):特征垂直范围(细胞数)
家族特有列:
- lobe:
asp(椭圆纵横比 [1.0, 2.5]) - channel + delta:
mCHsinu(蜿蜒度)、probAvulInside(决口概率)、mFFCHprop(泥质塞子比例) - delta:
trunk_length_fraction(主干长度分数 [0.1, 0.5])
Full parquet(params.parquet)— 可复现性参数
包含 25-75 列,用于精确复现样本。不建议用于训练。
数据划分
采用确定性 90/5/5 分层划分(按 layer_type 分层),种子为 42。划分文件为 splits/train.parquet(900,000行)、splits/validation.parquet(50,000行)和 splits/test.parquet(50,000行)。
物理尺度说明
立方体形状一致(64×64×32),但物理单元尺寸因架构不同而异:
- lobe:dx=dy=100 m, dz=1 m,范围 6.4 km × 6.4 km × 32 m
- channel: 和 delta*:dx=dy=10 m, dz=1 m,范围 640 m × 640 m × 32 m
推荐预处理(用于流匹配训练)
- facies →
[0, 1]浮点数:cube.astype(np.float32) - poro → 标准化:
(poro - 0.15) / 0.10 - perm → 对数渗透率:
np.log10(np.maximum(perm, 1e-3)) - layer_type → 类别嵌入(8类或3类)
- 其他 slim 列 → 连续嵌入,
null值用学习到的哨兵或家族掩码处理
地质注释
- 河道拓扑为树状,非交织状。决口分叉但从不重新合并。
- 孔隙度/渗透率遵循向上变细的 Walker-1992 模型,并加入 Kozeny-Carman 耦合及岩性质量乘数。
- 三角洲未绘制河口坝。
- 立方体已进行后裁剪(每侧边缘去掉8个细胞,上下各去掉9个细胞)以消除边界伪影。
引用格式
bibtex @misc{siliciclastic_reservoirs_2026, author = {Anonymous}, title = {{Siliciclastic Reservoirs}: 1M Synthetic 3D Reservoir Geology Cubes for Conditional Generative Modeling}, year = {2026}, publisher = {HuggingFace}, howpublished = {url{https://huggingface.co/datasets/AnonymouScientist/SiliciclasticReservoirs}} }




