five

Alberta Wells Dataset|环境监测数据集|计算机视觉数据集

收藏
arXiv2024-10-12 更新2024-10-14 收录
环境监测
计算机视觉
下载链接:
https://zenodo.org/records/13743323
下载链接
链接失效反馈
资源简介:
Alberta Wells Dataset是由Mila – 魁北克人工智能研究所和McGill大学合作创建的大型数据集,旨在通过卫星图像识别阿尔伯塔省的油气井。该数据集包含超过213,000个井的详细信息,包括废弃、暂停和活跃状态的井,覆盖了阿尔伯塔省的高密度油气井区域。数据集通过Planet Labs的中分辨率多光谱卫星图像获取,并经过领域专家的验证。创建过程包括从阿尔伯塔能源监管局获取数据,进行质量控制和数据清洗,最终生成包含94,000多张卫星图像的补丁。该数据集主要应用于环境监测和气候变化研究,旨在通过机器学习技术大规模识别废弃油气井,减少其对环境和气候的负面影响。
提供机构:
Mila – 魁北克人工智能研究所
创建时间:
2024-10-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
The Alberta Wells Dataset was meticulously constructed by leveraging medium-resolution multi-spectral satellite imagery from Planet Labs, in conjunction with comprehensive well location data sourced from the Alberta Energy Regulator. This dataset encompasses over 213,000 wells, categorized into abandoned, suspended, and active states, all verified by domain experts. The data collection process involved rigorous quality control, including the removal of duplicate entries and the categorization of wells based on expert-defined criteria. The geographical bounds of the wells were calculated, and the region was divided into non-overlapping square image patches, each covering an area of 1.1025 sq km, ensuring a balanced distribution of well and non-well patches.
使用方法
The Alberta Wells Dataset is designed for training and evaluating machine learning models aimed at detecting and pinpointing oil and gas wells from satellite imagery. Researchers and practitioners can utilize the dataset for tasks such as binary segmentation and object detection, leveraging the provided annotations to develop and fine-tune algorithms. The dataset's structure, including its training, validation, and testing splits, allows for robust model evaluation. Additionally, the dataset's geographical diversity and balanced distribution of well and non-well patches provide a realistic simulation of real-world conditions, enhancing the models' generalization capabilities.
背景与挑战
背景概述
阿尔伯塔油井数据集(Alberta Wells Dataset)由魁北克人工智能研究所(Mila)和麦吉尔大学的研究人员于2024年创建,旨在通过卫星图像大规模定位废弃、暂停和活跃的油气井。该数据集包含了来自阿尔伯塔省的超过213,000个油井的详细信息,这些信息由阿尔伯塔能源监管局(Alberta Energy Regulator)提供,并经过领域专家的验证。这一数据集的创建填补了现有数据集在识别废弃或暂停油井方面的空白,为环境监测和气候变化缓解提供了重要的工具。
当前挑战
阿尔伯塔油井数据集面临的挑战包括数据的不平衡分布,即包含多个油井的区域样本较少,而单个或两个油井的区域样本较多。此外,活跃、暂停和废弃油井在卫星图像中的视觉相似性增加了模型识别的难度。构建过程中,数据的质量控制和去重处理也是一大挑战。尽管存在这些挑战,该数据集的大规模和地理多样性为开发鲁棒且可推广的机器学习模型提供了宝贵的机会。
常用场景
经典使用场景
在石油和天然气行业中,Alberta Wells Dataset 被广泛用于通过卫星图像识别废弃、暂停和活跃的油井。这一数据集的经典应用场景包括利用高分辨率的多光谱卫星图像,结合深度学习算法,进行油井的检测和分割。通过这种方式,研究人员能够在大规模范围内精准定位油井,从而为环境监测和气候变化研究提供重要数据支持。
解决学术问题
Alberta Wells Dataset 解决了在石油和天然气领域中,由于废弃油井位置不明确导致的甲烷泄漏和地下水污染等环境问题。该数据集通过提供大规模、高质量的卫星图像和详细的油井位置信息,帮助学术界开发和验证用于油井检测的机器学习算法。这不仅提升了对环境影响的认识,还为政策制定者提供了科学依据,以制定更有效的环境保护措施。
实际应用
在实际应用中,Alberta Wells Dataset 被用于监测和识别油井,特别是那些可能未被记录的废弃油井。这些信息对于环境保护机构和能源公司至关重要,因为它们可以用来优先处理那些高排放的废弃油井,从而减少温室气体排放和地下水污染。此外,该数据集还可用于培训和验证自动化监测系统,提高油井管理的效率和准确性。
数据集最近研究
最新研究方向
在石油与天然气领域,Alberta Wells Dataset的最新研究方向主要集中在利用高分辨率卫星影像进行油气井的精准定位。该数据集不仅涵盖了活跃井,还包括了废弃井和暂停井,这对于识别和缓解温室气体排放具有重要意义。前沿研究正探索如何通过深度学习算法,特别是对象检测和二值分割技术,来提高井位识别的准确性和效率。此外,相关研究还关注于如何将这些技术应用于其他地区,以实现跨区域的井位监测和环境影响评估。
相关研究论文
  • 1
    Mila – Quebec AI Institute、麦吉尔大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

新能源光伏功率预测数据

采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息,通过气象预测模型与功率预测算法,实现对光伏电站未来一段时间内气象数据及功率数据的预测。

安徽省数据知识产权登记平台 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

ECMWF Reanalysis v5 (ERA5)

ERA5 是第五代 ECMWF 全球气候大气再分析,涵盖从 1940 年 1 月至今的时期。ERA5 由 ECMWF 的哥白尼气候变化服务 (C3S) 制作。 ERA5 提供大量大气、陆地和海洋气候变量的每小时估计值。这些数据以 30 公里的网格覆盖地球,并使用从地表到 80 公里高度的 137 个级别解析大气。ERA5 包括有关所有变量在降低空间和时间分辨率下的不确定性的信息。

OpenDataLab 收录

QIT-CEMC dataset

QIT-CEMC是一个开源的工具磨损数据集,使用涂层端铣刀在垂直加工中心收集,用于工业大数据和智能制造实验。数据集包括记录工具磨损健康指标的CSV文件和三个文件夹,分别是振动和声音信号文件夹、力和扭矩信号文件夹以及图像文件夹。

github 收录