five

GeoChemAD

收藏
arXiv2026-03-13 更新2026-03-17 收录
下载链接:
https://github.com/yihaoding/geochemad
下载链接
链接失效反馈
官方服务:
资源简介:
GeoChemAD是由西澳大利亚大学团队构建的开源地球化学异常检测基准数据集,涵盖澳大利亚西部多个区域的土壤、沉积物和岩石样本。该数据集包含8个子集,总计45,921个样本点,覆盖元素包括金(Au)、铜(Cu)、钨(W)和镍(Ni),空间尺度从6平方公里至8,500平方公里不等。数据源自政府地质调查项目(GSWA DMPE),经过坐标统一和异常值保留处理,支持矿物勘探中多元素关联分析与空间插值。其核心价值在于解决现有研究数据封闭、区域单一的问题,为无监督异常检测模型的泛化性评估提供标准化测试平台。
提供机构:
西澳大利亚大学; 墨尔本大学
创建时间:
2026-03-13
搜集汇总
数据集介绍
main_image_url
构建方式
在地球化学异常检测领域,数据集的构建对于模型泛化能力与结果可复现性至关重要。GeoChemAD数据集通过整合政府主导的地质调查数据,系统性地采集了来自土壤、沉积物和岩石碎屑等多种采样介质的样本,覆盖了金、铜、钨和镍等多种目标元素。该数据集包含八个子集,每个子集均经过严格的数据预处理,包括异常值处理、对数比变换以解决成分闭合问题,并采用特征选择策略优化输入特征。数据以CSV格式提供,包含样本的空间坐标、元素浓度及已知矿化点信息,确保了数据的完整性与一致性,为无监督异常检测任务提供了可靠的基础。
特点
GeoChemAD数据集展现出多源性与多样性的显著特点,涵盖了不同空间尺度、采样密度及地质环境下的地球化学数据。其八个子集分别对应不同的采样介质与目标元素,空间范围从约6平方公里至8500平方公里不等,采样点数量从224至21040个,充分模拟了实际勘探中的稀疏与密集采样条件。数据集不仅突破了以往研究对单一区域或元素的依赖,还通过包含多种矿化类型,增强了模型在复杂地质场景下的泛化能力。此外,数据集中元素浓度的分布呈现出介质特异性,如岩石样本浓度较高且集中,沉积物样本则呈现宽范围分布,这为模型学习异质性地球化学模式提供了丰富素材。
使用方法
GeoChemAD数据集支持无监督地球化学异常检测任务的系统评估与模型开发。使用者可首先对原始数据进行预处理,包括处理异常值、应用中心对数比或等距对数比变换以消除成分闭合效应,并根据任务需求进行特征选择或空间插值。数据集中提供的已知矿化点信息可用于模型性能验证,通过计算接收者操作特征曲线下面积等指标评估异常检测精度。研究人员可利用该数据集复现统计方法、机器学习模型及深度学习框架,或开发新算法以提升对多元素依赖关系与空间上下文的理解。数据与代码已公开,便于社区进行可复现研究与方法比较。
背景与挑战
背景概述
地球化学异常检测是矿产资源勘查中的核心技术,通过识别区域地球化学基线的偏离来指示潜在矿化。然而,长期以来该领域面临数据私有化与模型泛化性不足的双重局限。2026年,西澳大利亚大学的研究团队推出了GeoChemAD基准数据集,旨在构建一个开源、多区域、多采样源的综合评估平台。该数据集整合了政府地质调查数据,涵盖沉积物、土壤和岩石碎屑等多种采样介质,并包含金、铜、镍、钨等多种目标元素,涉及八个不同空间尺度和地质条件的子集。GeoChemAD的建立为无监督地球化学异常检测方法提供了标准化测试环境,显著提升了研究的可复现性与跨场景比较的公平性,推动了人工智能在矿产勘探领域的应用发展。
当前挑战
GeoChemAD致力于解决地球化学异常检测中的核心挑战:其一,在领域问题层面,地球化学数据受复杂地质过程影响,呈现高空间不连续性、不确定性和随机性,传统统计方法难以捕捉非线性模式,而无监督方法虽能利用大量正常样本,却常无法区分与目标元素相关的异常和无关的地球化学变异;其二,在数据集构建过程中,需整合多源、多尺度的地质调查数据,处理包括缺失值、负值等异常数据条目,并应对地球化学成分数据的闭合效应,这要求采用对数比变换等方法以消除伪相关性。此外,确保不同采样介质和区域间数据的一致性与可比性,以及为多样化场景建立稳健的评估基准,均是构建该数据集时需克服的关键难题。
常用场景
经典使用场景
在矿产资源勘探领域,地球化学异常检测是识别潜在矿化目标的关键技术。GeoChemAD数据集作为首个涵盖多区域、多采样源、多目标元素的公开基准数据集,其经典使用场景在于为无监督地球化学异常检测模型提供标准化评估平台。研究者可利用该数据集系统比较统计方法、生成模型及基于Transformer的算法在不同地质背景下的性能表现,从而推动模型泛化能力的研究。数据集包含八个子集,覆盖从平方公里级到数千平方公里级的空间尺度,支持对采样密度、元素类型和区域差异的全面分析,为地球化学异常检测领域的可复现研究奠定了坚实基础。
衍生相关工作
GeoChemAD数据集的发布催生了一系列围绕无监督地球化学异常检测的衍生研究工作。在方法论层面,基于该数据集评估的经典方法包括统计模型(如Z-score、马氏距离)、传统机器学习方法(如孤立森林、单类SVM)以及深度生成模型(如自编码器、变分自编码器及其GAN与扩散模型变体),这些基准为后续研究提供了性能参照。尤为重要的是,数据集直接启发了GeoChemFormer这一创新框架的开发,该框架利用Transformer架构进行自监督预训练,学习空间上下文与元素依赖关系,实现了跨数据集的稳健异常检测。此外,数据集支持的预处理策略比较(如CLR/ILR变换、特征选择、空间插值)也推动了地球化学数据标准化处理流程的优化研究。
数据集最近研究
最新研究方向
在地球化学异常检测领域,GeoChemAD数据集的推出标志着该领域从依赖单一区域、私有数据集向开放、标准化基准测试的重要转变。该数据集整合了多区域、多采样源(土壤、沉积物、岩石碎屑)及多目标元素(金、铜、钨、镍)的多样化子集,为评估模型在复杂地质条件下的泛化能力提供了坚实基础。前沿研究聚焦于无监督学习框架,特别是基于Transformer的架构如GeoChemFormer,其通过自监督预训练学习目标元素感知的地球化学表征,有效捕捉空间上下文与元素依赖关系。当前热点探索方向包括:利用对数比变换处理成分数据闭合效应、结合因果发现与大语言模型的特征选择策略、以及空间插值方法对采样密度差异的适应性优化。这些进展不仅提升了异常检测的准确性与空间一致性,更为矿产勘探的智能化与可复现研究建立了新的方法论范式,推动了地球科学与人工智能的深度融合。
相关研究论文
  • 1
    GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration西澳大利亚大学; 墨尔本大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作