five

SiliciclasticReservoirs

收藏
Hugging Face2026-05-03 更新2026-05-04 收录
下载链接:
https://huggingface.co/datasets/AnonymouScientist/SiliciclasticReservoirs
下载链接
链接失效反馈
官方服务:
资源简介:
Siliciclastic Reservoirs 是一个包含 1,000,000 个合成 3D 地质立方体的数据集,用于硅质碎屑岩储层研究。这些立方体通过基于规则的沉积学模拟生成(包括浊积叶状体、6 种河流通道结构和三角洲扇分布),每个立方体的体素尺寸为 (64, 64, 32)。每个样本包含岩相、孔隙度、渗透率以及一组结构化地质条件参数。数据集旨在训练可解释物理条件下的地下地质条件生成模型(如流匹配、扩散模型等)。数据集包含 8 种储层架构,样本总数为 1,000,000 个,每个立方体包含 4 个体素数组(二元岩相、6 类岩相、孔隙度、渗透率)。数据以紧凑的 parquet 格式存储,并提供了完整的可重现性支持。数据集按 90/5/5 的比例分为训练集、验证集和测试集,并分层抽样以确保各层类型在分割中的比例一致。此外,数据集还提供了详细的加载示例和推荐的预处理步骤,适用于图像分割、图像分类、文本到图像生成等任务。

Siliciclastic Reservoirs is a dataset containing 1,000,000 synthetic 3D geological cubes for siliciclastic reservoir research. These cubes are generated through rule-based sedimentological simulations (including turbidite lobes, 6 types of fluvial channel structures, and delta fan distributions), with each cube having voxel dimensions of (64, 64, 32). Each sample includes lithofacies, porosity, permeability, and a set of structured geological condition parameters. The dataset is designed to train interpretable physical-conditioned subsurface geological condition generation models (such as flow matching, diffusion models, etc.). The dataset contains 8 reservoir architectures, with a total of 1,000,000 samples, each cube containing 4 voxel arrays (binary lithofacies, 6-class lithofacies, porosity, permeability). The data is stored in a compact parquet format and provides full reproducibility support. The dataset is divided into training, validation, and test sets in a 90/5/5 ratio, with stratified sampling to ensure consistent proportions of each layer type in the splits. Additionally, the dataset provides detailed loading examples and recommended preprocessing steps, making it suitable for tasks such as image segmentation, image classification, and text-to-image generation.
创建时间:
2026-04-27
原始信息汇总

数据集概述:Siliciclastic Reservoirs (1M Synthetic 3D Geological Cubes)

基本信息

  • 数据集名称:Siliciclastic Reservoirs
  • 许可证:Creative Commons Attribution 4.0 International (CC-BY-4.0)
  • 语言:英语
  • 样本规模:1,000,000 < n < 10,000,000
  • 任务类别:图像分割、图像分类、文本到图像、其他
  • 标签:地质学、地球科学、储层、合成数据、体素、3D、流匹配、扩散模型、生成建模、地下、石油、地下水、碳封存、条件生成

数据集内容

该数据集包含 1,000,000 个合成三维碎屑岩储层地质立方体,基于规则驱动的沉积学模拟生成,涵盖浊积叶瓣体、6种河道架构和三角洲扇分流河道。每个立方体体素化为 (64, 64, 32) 个单元,每个样本包含岩相、孔隙度、渗透率以及一组结构化的地质条件参数。数据集旨在训练地下地质的 条件生成模型(如流匹配、扩散模型)。

数据集架构(Layer Types)

数据集包含8种储层架构,具体分布如下:

架构类型 (layer_type) 描述 样本数
lobe 浊积叶瓣体(深水重力流沉积) 200,000
channel:PV_SHOESTRING 古河谷鞋带状砂岩 100,000
channel:CB_JIGSAW 河道-坝体,拼图式连通性 150,000
channel:CB_LABYRINTH 河道-坝体,迷宫状连通性 100,000
channel:SH_DISTAL 远端席状砂岩 100,000
channel:SH_PROXIMAL 近端席状砂岩 100,000
channel:MEANDER_OXBOW 多层曲流带,含牛轭湖充填 100,000
delta 进积分流扇三角洲 150,000

数据文件结构

每个样本包含4个体素数组

文件 数据类型 形状 描述
facies.npy int8 (N, 64, 64, 32) 二值岩相:0 = 泥岩, 1 = 砂岩(主要训练信号)
facies_alluvsim.npy int8 (N, 64, 64, 32) 6类岩相:-1 (FF), 0 (FFCH), 1 (CS), 2 (LV), 3 (LA), 4 (CH)
poro.npy float16 (N, 64, 64, 32) 孔隙度,范围 [0, 0.5]
perm.npy float16 (N, 64, 64, 32) 渗透率(毫达西),范围 [0, 60000]

目录结构

SiliciclasticReservoirs/ ├── README.md ├── DATASHEET.md ├── splits/ ← 确定性 90/5/5 分层划分 │ ├── train.parquet ← 900,000 行 │ ├── validation.parquet ← 50,000 行 │ └── test.parquet ← 50,000 行 ├── lobe/ ← 200,000 样本,256 分片 ├── channel_pv_shoestring/ ← 100,000 样本,256 分片 ├── channel_cb_labyrinth/ ← 100,000 样本,256 分片 ├── channel_cb_jigsaw/ ← 150,000 样本,256 分片 ├── channel_sh_distal/ ← 100,000 样本,256 分片 ├── channel_sh_proximal/ ← 100,000 样本,256 分片 ├── channel_meander_oxbow/ ← 100,000 样本,256 分片 └── delta/ ← 150,000 样本,256 分片

每个分片大小约 380 MB 至 1.2 GB。

条件参数

Slim parquet(params_slim.parquet)— 训练用条件参数

包含8种架构通用的列及家族特有列。

通用列

  • layer_type(str):8种架构字符串之一
  • caption(str):人类可读描述
  • ntg(float32):实际净毛比 [0, 1]
  • poro_ave(float32):实际平均孔隙度
  • perm_ave(float32):实际平均 log10(perm)
  • azimuth(float32):区域流动方向 [0, 360)
  • width_cells(float32):特征水平范围(细胞数)
  • depth_cells(float32):特征垂直范围(细胞数)

家族特有列

  • lobe:asp(椭圆纵横比 [1.0, 2.5])
  • channel + delta:mCHsinu(蜿蜒度)、probAvulInside(决口概率)、mFFCHprop(泥质塞子比例)
  • delta:trunk_length_fraction(主干长度分数 [0.1, 0.5])

Full parquet(params.parquet)— 可复现性参数

包含 25-75 列,用于精确复现样本。不建议用于训练。

数据划分

采用确定性 90/5/5 分层划分(按 layer_type 分层),种子为 42。划分文件为 splits/train.parquet(900,000行)、splits/validation.parquet(50,000行)和 splits/test.parquet(50,000行)。

物理尺度说明

立方体形状一致(64×64×32),但物理单元尺寸因架构不同而异:

  • lobe:dx=dy=100 m, dz=1 m,范围 6.4 km × 6.4 km × 32 m
  • channel: 和 delta*:dx=dy=10 m, dz=1 m,范围 640 m × 640 m × 32 m

推荐预处理(用于流匹配训练)

  • facies[0, 1] 浮点数:cube.astype(np.float32)
  • poro → 标准化:(poro - 0.15) / 0.10
  • perm → 对数渗透率:np.log10(np.maximum(perm, 1e-3))
  • layer_type → 类别嵌入(8类或3类)
  • 其他 slim 列 → 连续嵌入,null 值用学习到的哨兵或家族掩码处理

地质注释

  • 河道拓扑为树状,非交织状。决口分叉但从不重新合并。
  • 孔隙度/渗透率遵循向上变细的 Walker-1992 模型,并加入 Kozeny-Carman 耦合及岩性质量乘数。
  • 三角洲未绘制河口坝。
  • 立方体已进行后裁剪(每侧边缘去掉8个细胞,上下各去掉9个细胞)以消除边界伪影。

引用格式

bibtex @misc{siliciclastic_reservoirs_2026, author = {Anonymous}, title = {{Siliciclastic Reservoirs}: 1M Synthetic 3D Reservoir Geology Cubes for Conditional Generative Modeling}, year = {2026}, publisher = {HuggingFace}, howpublished = {url{https://huggingface.co/datasets/AnonymouScientist/SiliciclasticReservoirs}} }

搜集汇总
数据集介绍
main_image_url
构建方式
SiliciclasticReservoirs数据集基于规则驱动的沉积学模拟方法构建,涵盖浊积叶瓣、六种河流河道架构及三角洲扇分流等八类储层架构。每个样本以(64, 64, 32)体素网格呈现,包含二元岩相、六类岩相、孔隙度和渗透率四种体素阵列。数据生成过程完全可复现,每个样本均可通过种子与参数组合重新生成。数据集总量达一百万样本,按90/5/5比例分层划分为训练、验证和测试集,并细化至256个分片存储,便于分布式加载与训练。
特点
该数据集融合了地质学专业性与机器学习适用性。每个样本除岩相、孔隙度、渗透率外,还附带结构化的地质条件参数,包括净毛比、平均孔隙度、对数渗透率均值、方位角及特征尺度等通用列,以及针对不同储层家族的特异性参数(如长宽比、曲率、决口概率等)。体素物理分辨率依储层类型自适应调整,浊积叶瓣为100米水平分辨率,河道与三角洲则为10米,差异通过参数列隐式表达。数据集同时提供人类可读的文字描述,支持文本条件生成实验。
使用方法
推荐采用PyTorch的IterableDataset接口加载分片数据,利用内存映射文件高效读取体素阵列。训练条件生成模型时,建议将二元岩相转换为[0,1]浮点数,孔隙度标准化至零均值附近,渗透率取对数变换。条件参数可按层类型进行类别嵌入,连续参数可采用标准归一化,空值则用学习哨兵或族掩码处理。该数据集支持流匹配、扩散模型等条件生成范式,能够在地质可解释参数约束下学习地下储层三维结构分布。
背景与挑战
背景概述
SiliciclasticReservoirs数据集由匿名研究团队于2026年创建,旨在为地下地质领域的条件生成模型提供大规模、标准化的训练基准。该数据集通过基于规则的沉积学模拟,生成了包含浊积叶瓣、六种河流河道架构和三角洲扇分支的100万个合成三维碎屑岩储层立方体,每个立方体以64×64×32体素分辨率记录了岩相、孔隙度、渗透率及可解释的地质条件参数。作为首个涵盖多种储层架构且完全可复现的合成地质数据集,它为弥合地质先验知识与数据驱动生成模型之间的鸿沟提供了关键资源,在石油勘探、地下水管理及碳封存等地下流体流动模拟领域具有重要影响力。
当前挑战
该数据集所解决的领域问题在于,传统地质建模依赖稀疏的井数据和专家经验,难以生成多样化的可靠训练样本,而地下流体流动模拟对孔隙度、渗透率等物理属性的空间分布精度要求极高,现有生成模型常因缺乏物理约束而产生地质上不合理的输出。构建过程中面临的挑战包括:如何在保持地质真实性的前提下覆盖多种沉积架构的极限参数空间(如河道曲率1.05–1.85、泥质充填比例0–0.7),如何确保不同层类型间物性场的无缝耦合(如Walker-1992向上变细韵律与Kozeny-Carman方程的事件级随机扰动),以及如何通过后裁剪去除模拟引擎边界伪影以维持数据纯净度,这些均需在规则模拟与可扩展性之间取得精细平衡。
常用场景
经典使用场景
在地质科学领域,三维地下储层表征与建模长久以来受限于真实岩心数据的稀疏性和高获取成本。SiliciclasticReservoirs数据集通过基于规则的沉积学模拟,生成了包含浊积朵叶、六种河流河道架构以及三角洲扇分流河道在内的八种经典储层构型的百万级立方体样本,每个样本以(64, 64, 32)体素分辨率的格式封装了岩相、孔隙度和渗透率等关键属性。这一海量合成数据为训练以流匹配和扩散模型为代表的条件生成模型提供了理想基底,使得研究者能够在可解释的物理条件下,系统学习地下地质体的三维分布规律。该数据集最经典的应用场景是条件化三维地质体生成,即利用给定的地质参数(如净毛比、孔隙度均值、走向等)作为条件约束,生成符合特定沉积背景的逼真储层模型,从而有效弥合数据匮乏地区的地质建模鸿沟。
衍生相关工作
SiliciclasticReservoirs数据集的面世催生了一系列前沿研究与模型架构的创新。基于该数据集的流匹配和扩散模型训练框架,研究者开发了多种面向三维体素数据的条件生成架构,例如将跨注意力机制与U-Net结构结合以嵌入净毛比、孔隙度等连续条件参数的方法,以及将沉积构型类型作为离散类别标签进行条件编码的策略。此外,该数据集推动了地质体生成中可控性的提升,衍生出通过隐空间插值实现不同构型间渐变过渡的形态混合技术,以及利用分类器引导实现物性统计量精确调控的精细生成方法。在生成模型的评估维度上,该数据集促进了感知质量与物理一致性兼顾的新指标的设计,如结合拓扑连通性分析与岩石物理约束的水动力学评分机制。这些工作不仅在计算地球科学领域形成了活跃的研究分支,也为生成式人工智能在物理科学中的系统应用开辟了范式路径。
数据集最近研究
最新研究方向
在油气勘探、地下碳封存及地热开发等深地工程领域,SiliciclasticReservoirs数据集的诞生为条件生成建模提供了突破性契机。该百万级体素库囊括浊积朵叶、河流通道及三角洲扇等八种经典碎屑岩储层架构,结合孔隙度、渗透率与相态的物理约束,正推动基于流匹配与扩散模型的地下地质体三维重建研究迈入可解释、可复现的新阶段。其精细化的沉积环境参数与层理结构标签,使生成式人工智能不再停留于纹理模拟,而是能忠实还原储层内部非均质性与流体运移通道,为数字岩心与油藏数值模拟注入了大规模、高保真的训练燃料。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作