Penobscot Dataset

Name: Penobscot Dataset
Creator: IBM研究院
Published: 2019-03-22 03:10:14
License: 暂无描述

arXiv2019-03-22 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.1324463

下载链接

链接失效反馈

官方服务：

资源简介：

Penobscot Dataset是由IBM研究院创建的，旨在支持地震解释领域的机器学习研究。该数据集包含超过100,000个标记的地震图像，来源于加拿大新斯科舍省Scotian架上的Penobscot 3D地震数据。数据集的创建过程涉及对地震数据的重新解释，生成了7个分隔不同地震相间隔的地平线。该数据集主要用于地震相分类和分割，有助于解决地震数据解释中的复杂问题，提高解释的准确性和效率。

The Penobscot Dataset was developed by IBM Research to support machine learning research in the domain of seismic interpretation. This dataset includes over 100,000 labeled seismic images derived from the Penobscot 3D seismic survey conducted over the Scotian Shelf off the coast of Nova Scotia, Canada. The creation of this dataset involved reinterpreting the original seismic data, generating 7 horizons that delineate the boundaries between distinct seismic facies. This dataset is primarily utilized for seismic facies classification and segmentation, helping resolve complex challenges in seismic data interpretation and improving the accuracy and efficiency of interpretation workflows.

提供机构：

IBM研究院

创建时间：

2019-03-22

搜集汇总

数据集介绍

构建方式

在地球物理勘探领域，公开标注数据的稀缺制约了机器学习技术的应用发展。Penobscot数据集的构建源于对加拿大新斯科舍省近海Penobscot三维地震数据的深度解译。原始公开数据虽包含叠前叠后数据及五个层位，但为适应地震相分析任务，研究团队利用OpendTect软件重新解译，生成了七个区分不同地震相单元的层位界面。这些层位将地震体划分为八个纹理模式各异的区间，并通过与地震测线的交切，产生了超过十万张标注图像，其中像素值0至7对应不同层位区间，为监督学习提供了坚实基础。

特点

该数据集的核心特点在于其专门为地震相识别与分割任务设计的高质量标注。数据集不仅提供了原始的TIF格式地震剖面，还包含了对应的PNG格式标注图像，实现了像素级的地震相标签。此外，数据集贴心地提供了经过处理的分类子集，将图像分割为40x40像素的图块，并平衡了各类别的样本数量，降低了机器学习模型训练的复杂度。其数据源于真实的公开勘探区块，标注由专业地质学家完成，确保了地质意义的合理性，为算法开发提供了既具挑战性又可靠的基准。

使用方法

Penobscot数据集主要支持基于深度学习的地震相分析与解释研究。使用者可直接利用其提供的标注图像进行端到端的语义分割模型训练，实现地震剖面中不同相带的自动划分。对于分类任务，数据集预处理的图块及其标签可用于训练卷积神经网络，进行地震相类型的判别。研究人员亦可基于原始的层位数据与地震体，开发新的解释算法或进行迁移学习研究。数据集的公开性使得不同方法的结果具备了可比性，有力推动了地震解释领域机器学习研究的标准化进程。

背景与挑战

背景概述

随着机器学习技术在图像分类、分割等领域的蓬勃发展，公共数据集的构建成为推动学科进步的关键基石。在地球物理领域，地震解释作为油气勘探的核心环节，长期面临数据解释任务繁重、效率低下的挑战。2019年，IBM研究院的Lais Baroni、Reinaldo Mozart Silva等学者基于加拿大新斯科舍省近海的Penobscot三维地震数据，创建了Penobscot解释数据集。该数据集旨在为地震解释任务提供首个公开的标注数据资源，包含7个重新解释的地震层位及逾十万张标注图像，以支持机器学习模型在地震相分类与分割等任务中的开发与验证，为地球物理与人工智能的交叉研究奠定了重要基础。

当前挑战

在地震解释领域，传统方法依赖人工判读，面临海量数据处理效率低下、主观性强等挑战。Penobscot数据集致力于通过机器学习实现地震相的自动分类与分割，以提升解释精度与效率。在构建过程中，研究团队需克服多重困难：原始地震数据分辨率随深度降低，深层信号模糊增加了层位解释的难度；地震相单元间纹理特征复杂，需精细划分不同反射模式以生成可靠标注；同时，数据类别分布不均衡，要求通过平衡处理确保机器学习模型训练的稳定性。这些挑战凸显了地球物理数据与机器学习方法融合的实际复杂性。

常用场景

经典使用场景

在地球物理勘探领域，地震解释作为识别地下构造与岩性的核心手段，长期依赖人工判读，效率受限且主观性强。Penobscot数据集通过提供超过10万张标注地震图像，为机器学习模型训练提供了标准化基准，其经典应用场景集中于地震相分类与语义分割任务。研究者利用该数据集中的地震道集与层位标签，能够开发深度学习算法，自动识别地震反射模式中的纹理特征，从而实现对不同沉积相单元的精确划分，显著提升了地震解释的自动化水平与客观性。

实际应用

在实际勘探工作中，Penobscot数据集为油气藏预测与储层表征提供了高效工具。石油公司可利用基于该数据集训练的模型，快速扫描大规模三维地震数据，识别潜在烃类聚集区与沉积相边界。例如，在加拿大斯科舍陆架区的勘探中，算法能够自动划分三角洲相、深海页岩相等关键地质单元，辅助地质学家评估储层连续性与流体分布，从而优化钻井靶区定位，降低勘探风险与成本，提升资源评估的精度与时效性。

衍生相关工作

Penobscot数据集催生了多项地震解释领域的创新研究。Chevitarese等人基于该数据开发了高效地震纹理分类网络，实现了分钟级训练与超过97%的准确率；随后同一团队进一步拓展至语义分割任务，通过修改网络结构完成像素级地震相预测，交并比指标优异。这些工作验证了深度学习在地震解释中的可行性，并启发了后续研究如迁移学习应用于其他地震数据集、多属性融合分析等方向，为地球物理与人工智能的交叉学科发展奠定了数据与方法基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集