five

monteirot/wellbench

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/monteirot/wellbench
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个时间序列预测数据集,专注于物理或石油工程领域的井数据,包含来自三个不同井(MISSA-KESWAL-01、MISSA-KESWAL-02、MISSA-KESWAL-03)的样本,规模在1,000到10,000条记录之间。数据通过mlcroissant库以结构化格式(croissant.json)提供,并使用pandas进行分割,适用于训练、验证和测试任务,但具体数据字段和来源未在README中详细说明。

This dataset is a time-series forecasting dataset focused on well data in the physics or petroleum engineering domain, containing samples from three distinct wells (MISSA-KESWAL-01, MISSA-KESWAL-02, MISSA-KESWAL-03), with a size between 1,000 and 10,000 records. The data is provided in a structured format (croissant.json) via the mlcroissant library and split using pandas for training, validation, and testing purposes, but specific data fields and sources are not detailed in the README.
提供机构:
monteirot
搜集汇总
数据集介绍
main_image_url
构建方式
在油气地球物理领域,真实测井数据常因商业机密而难以获取,且通用表格生成器忽略了测井数据固有的岩石物理关系。wellbench数据集通过两种互补方法构建:一是基于物理的确定性生成器,遵循Athy压实、Wyllie时均、Archie方程等封闭形式变换,并利用Optuna优化区域参数以最小化Jensen-Shannon散度与Wasserstein-1距离;二是作为基线的CTGAN模型,基于清洗后的真实测井数据进行训练。两种方法均针对巴基斯坦东Potwar盆地三个区域共九口真实井进行校准,最终生成18份合成CSV文件。
特点
该数据集的核心特点在于其独特的物理约束与双生成器对比设计。物理生成器确保了合成测井曲线在岩石物理层面上的真实性,而CTGAN基线则为评估物理先验的贡献提供了参照。数据集涵盖孔隙压力预测所需的多种测井曲线,包括伽马射线、声波时差、密度、电阻率及派生压力参数,完全遵循物理边界约束。所有数据均采用MIT许可证发布,具备完全可复现性,并内嵌了推荐的数据划分策略,支持表格回归与时间序列预测等任务。
使用方法
用户可通过Hugging Face Datasets库便捷加载数据集,选择物理生成或CTGAN版本对应的区域配置,并利用内置split参数获取单口合成井的数据。数据集支持转换为Pandas DataFrame以进行后续分析,也兼容MLCroissant标准元数据进行验证。推荐将每个区域的三口井分别作为训练集、验证集和测试集使用,以保持与论文一致的评估流程。用户可基于提供的物理约束边界进行数据清洗,并复用wellbench库中的评估指标进行保真度与效用的系统对比。
背景与挑战
背景概述
wellbench数据集诞生于2026年,由T. Monteiro等研究人员提出,是面向地层孔隙压力预测领域的综合性合成测井数据基准。在油气勘探与开发中,孔隙压力预测是钻井安全与资源评估的核心环节,然而真实测井数据往往因商业机密而稀缺、零散,且通用表格合成方法(如CTGAN)忽视了测井数据固有的岩石物理约束。wellbench基于巴基斯坦东部波特瓦盆地九个真实井位,分别通过确定性物理生成器(基于Athy压实、Archie方程等)与CTGAN基线方法生成合成数据,经由Optuna优化以逼近真实数据分布。该数据集以MIT许可开源,为深度学习方法的可重复性评估提供了标准化平台,对推动地球科学机器学习研究具有重要影响力。
当前挑战
wellbench所解决的领域挑战在于克服真实测井数据因商业机密导致的稀缺性与碎片化问题,同时弥补通用合成方法忽视岩石物理关系(如压实趋势、电性响应)的缺陷。构建过程中,物理生成器需将区域地质参数(如Eaton指数)校准至真实井位,并通过Jensen–Shannon散度与Wasserstein距离优化,算法复杂度高;CTGAN基线则面临后验深度排序导致的垂直相关性失真。此外,数据集仅覆盖页岩主导的碎屑岩盆地,未包含碳酸盐岩等岩性,且仅模拟欠压实超压机制,排除了有机质成熟等其他成因,地质偏差与物理假设的局限性构成了后续使用的核心挑战。
常用场景
经典使用场景
在计算地球科学领域,wellbench数据集的核心应用价值在于提供了一个可复现、开源且物理约束完备的基准平台,专门用于评估和比较各类孔隙压力预测模型的表现。该数据集通过深度索引的测井序列模拟地层物理属性,支持将孔隙压力(PPP)作为连续回归目标的监督学习任务。研究者可利用GR、DT、RHOB、RT等测井曲线及衍生静水压力与上覆压力作为输入特征,构建从数据驱动回归到物理信息网络的一系列预测架构。同时,由于其深度序列结构,该数据集天然适用于深度学习中的时间序列预测范式,其中DEPTH轴可替代时序维度,使LSTM、Transformer等递归或注意力模型能够在纵向沉积序列中学习压力演化规律。
实际应用
在实际能源勘探与工程应用中,wellbench数据集主要服务于钻井安全评估与地层压力预测算法的研发迭代。石油与天然气工业在钻井前需要准确掌握地下孔隙压力分布以防止井喷或井漏事故,然而受限于昂贵且碎片化的真实测井资料,压力预测模型的验证与调优往往举步维艰。该数据集为油服公司和钻井工程师提供了一套标准化的合成测试床,可用于快速验证新开发的机器学习和深度学习压力预测工具在不同盆地环境下的鲁棒性。此外,它也可作为数据增强手段,在小样本真实测井场景中扩充训练集,提升部署模型在复杂地质条件下的预测可靠性与泛化能力。
衍生相关工作
wellbench数据集的发布催生了一系列围绕合成地下数据生成、评估与下游应用的经典研究工作。在生成方法层面,该数据集开创性地将确定性岩石物理模型与统计深度生成模型进行系统性比较,直接激励了后续将生成对抗网络与物理约束融合的混合合成测井生成架构研究,如引入物理损失函数的变分自编码器与扩散模型。在评估体系方面,随数据集发布的标准参考评估套件促使研究者构建了基于分布散度与下游任务效用度量的合成数据质量评价框架,相关成果被后续多个地球科学基准数据集所引用。在应用延伸上,基于该数据集的孔压预测竞赛激励了注意力机制与物理信息网络在地下压力场建模中的适应性改进,形成了从合成数据验证到真实井场迁移的完整研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作