five

3W Dataset|油井安全数据集|机器学习数据集

收藏
github2024-05-08 更新2024-05-31 收录
油井安全
机器学习
下载链接:
https://github.com/ricardovvargas/3w_dataset
下载链接
链接失效反馈
资源简介:
这是第一个包含罕见不良事件的真实油井公共数据集,可用于作为开发与实际数据固有困难相关的机器学习技术的基准数据集。

This is the first public dataset containing rare adverse events from real oil wells, which can be used as a benchmark dataset for developing machine learning techniques related to the inherent difficulties of actual data.
创建时间:
2019-01-19
原始信息汇总

3W 数据集概述

数据集描述

3W 数据集是首个公开的、包含石油井中罕见不良实际事件的真实数据集,可作为开发与实际数据固有困难相关的机器学习技术的基准数据集。该数据集由8种不良事件的实例组成,涉及8个过程变量,经过专家验证的历史实例以及模拟和手绘实例。

数据集结构

3W 数据集包含1,984个CSV文件,存储在7z格式的文件中,位于data目录下。每个文件代表一个实例,文件名揭示其来源。数据格式为每行一个观测值,每列一个系列,列之间用逗号分隔,小数点用点表示。首列为时间戳,末列为观测标签,其余列为多变量时间序列数据。

引用信息

使用3W数据集时,应引用以下文献:

@article{VARGAS2019106223, title = "A realistic and public dataset with rare undesirable real events in oil wells", journal = "Journal of Petroleum Science and Engineering", volume = "181", pages = "106223", year = "2019", issn = "0920-4105", doi = "https://doi.org/10.1016/j.petrol.2019.106223", url = "http://www.sciencedirect.com/science/article/pii/S0920410519306357", author = "Ricardo Emanuel Vaz Vargas and Celso José Munaro and Patrick Marques Ciarelli and André Gonçalves Medeiros and Bruno Guberfain do Amaral and Daniel Centurion Barrionuevo and Jean Carlos Dias de Araújo and Jorge Lins Ribeiro and Lucas Pierezan Magalhães", keywords = "Fault detection and diagnosis, Oil well monitoring, Abnormal event management, Multivariate time series classification", abstract = "Detection of undesirable events in oil and gas wells can help prevent production losses, environmental accidents, and human casualties and reduce maintenance costs. The scarcity of measurements in such processes is a drawback due to the low reliability of instrumentation in such hostile environments. Another issue is the absence of adequately structured data related to events that should be detected. To contribute to providing a priori knowledge about undesirable events for diagnostic algorithms in offshore naturally flowing wells, this work presents an original and valuable dataset with instances of eight types of undesirable events characterized by eight process variables. Many hours of expert work were required to validate historical instances and to produce simulated and hand-drawn instances that can be useful to distinguish normal and abnormal actual events under different operating conditions. The choices made during this datasets preparation are described and justified, and specific benchmarks that practitioners and researchers can use together with the published dataset are defined. This work has resulted in two relevant contributions. A challenging public dataset that can be used as a benchmark for the development of (i) machine learning techniques related to inherent difficulties of actual data, and (ii) methods for specific tasks associated with detecting and diagnosing undesirable events in offshore naturally flowing oil and gas wells. The other contribution is the proposal of the defined benchmarks." }

数据集使用

数据集提供了一些基准实验的结果,包括:

  • 基准1:使用模拟和手绘实例的影响(代码和结果链接)
  • 基准2:异常检测(代码和结果链接)

这些结果可作为研究人员和实践者的基准参考。

AI搜集汇总
数据集介绍
main_image_url
构建方式
3W数据集的构建基于对石油井中罕见不良事件的实际测量和模拟数据。通过专家验证历史实例,并生成模拟和手绘实例,以区分不同操作条件下的正常和异常事件。数据集的准备过程中,详细描述并合理化了各种选择,确保其真实性和实用性。
使用方法
使用3W数据集时,首先需解压缩存储在`data`目录中的7z文件。每个CSV文件代表一个实例,文件名揭示了其来源。数据集的标准化格式包括每行一个观测值,每列一个时间序列,列间以逗号分隔,小数点以句号表示。第一列包含时间戳,最后一列揭示观测标签,其余列为多变量时间序列数据。
背景与挑战
背景概述
在石油工业领域,检测油井中的不良事件对于预防生产损失、环境事故和人身伤害具有重要意义。然而,由于恶劣环境下的仪器可靠性较低,此类过程的测量数据往往稀缺。此外,与应检测事件相关的结构化数据的缺失也是一个重大问题。为了填补这一空白,Ricardo Emanuel Vaz Vargas及其团队于2019年创建了3W数据集,这是首个包含真实油井中罕见不良事件的公开数据集。该数据集不仅为诊断算法提供了先验知识,还为机器学习技术的发展提供了基准数据。通过结合历史实例、模拟数据和手工绘制的数据,3W数据集为研究人员和从业者提供了一个宝贵的资源,以开发和验证用于检测和诊断海上自然流动油井中不良事件的方法。
当前挑战
3W数据集的构建面临多重挑战。首先,获取和验证真实油井中的不良事件数据是一项艰巨的任务,因为这些事件本身就非常罕见且难以捕捉。其次,为了增强数据集的实用性,研究人员不得不模拟和手工绘制大量实例,这不仅耗时且需要高度专业化的知识。此外,数据集的多变量时间序列结构增加了分析的复杂性,要求算法能够处理高维数据并识别细微的模式。最后,尽管3W数据集为异常检测和诊断提供了基准,但其应用仍面临模型泛化能力和实时处理效率的挑战,特别是在资源受限的环境中。
常用场景
经典使用场景
在石油工业领域,3W数据集因其包含了罕见且真实的油井不良事件而备受瞩目。该数据集被广泛用于开发和验证机器学习技术,特别是在多变量时间序列分类和异常检测方面。通过模拟和手工绘制的实例,3W数据集为研究人员提供了一个真实且具有挑战性的基准,用以评估和改进现有的故障检测和诊断算法。
解决学术问题
3W数据集解决了石油工业中长期存在的数据稀缺和结构化数据不足的问题。通过提供一个包含多种不良事件的公共数据集,它为学术界和工业界提供了一个宝贵的资源,用以研究和开发新的机器学习方法,特别是那些能够处理实际数据中固有困难的技术。这不仅推动了相关领域的技术进步,还为预防生产损失、环境事故和降低维护成本提供了理论支持。
实际应用
在实际应用中,3W数据集被用于开发和优化油井监测系统,特别是在海上自然流动的油井中。通过使用该数据集训练的模型,可以实时检测和诊断油井中的异常事件,从而及时采取措施防止生产中断和设备损坏。此外,该数据集还被用于培训操作人员和工程师,提高他们对油井运行状态的监控能力,确保生产过程的安全和高效。
数据集最近研究
最新研究方向
在石油工程领域,3W数据集因其对油井中罕见不良事件的真实记录而备受关注。最新研究方向主要集中在利用机器学习技术进行异常检测和故障诊断,特别是在多变量时间序列分类方面。研究者们通过模拟和手绘实例的引入,探讨了其在提高检测精度和鲁棒性方面的潜力。此外,数据集的公开性和真实性使其成为评估和开发新型机器学习算法的理想基准,推动了石油工业中智能监控和预测维护技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录