雅鲁藏布江-长江-朋曲重矿物化学成分能谱数据集|地质学数据集|机器学习数据集

国家青藏高原科学数据中心2025-04-25 更新2024-03-06 收录

地质学

机器学习

下载链接：

https://data.tpdc.ac.cn/zh-hans/data/a33f8f93-b4b8-4597-af5d-345b1116a61e

下载链接

链接失效反馈

资源简介：

砂和砂岩广泛分布在海洋和陆地，是构成石油、天然气、地下水和砂岩型铀矿的主要储集层。砂和砂岩的重矿物记录了这些物质的产生、搬运和沉积的历史。通过研究砂和砂岩的重矿物，可以重塑源区的性质、追踪沉积迁移路径、绘制沉积物扩散模式、理解特殊的水力状况、定位潜在经济矿体，因而具有重要的研究价值。重矿物具有种类复杂、类型多样、稳定性差异大、颗粒粒径小、物理形态多变、颜色复杂、区域性分布等特征。长期以来，重矿物种类的快速、精确鉴定一直是地质学领域的一个技术瓶颈。无论是光学显微镜鉴定还是元素分析、光谱测试等，不仅要求较高的专业水平，并且耗时费力，测试经费居高不下，对实验仪器性能也要求很高。这严重限制了重矿物分析的广泛运用。随着人工智能技术的快速发展，重矿物智能识别软件开发成为了可能。从描述重矿物化学组成的定点X射线能谱分析（EDS）开展重矿物自动识别方法的探索性研究，以求获得更为高效、精准且经济的重矿物智能识别软件技术。第二次青藏高原综合科学考察研究任务二“亚洲水塔动态变化与影响” 所属专题“水系固体物质源-汇过程与演变”专门设置子专题“河流沙重矿物自动判别方法研究”（子专题编号：2019QZKK020405）来开展河流沙重矿物智能判别方法的研究。本数据集为开展此项研究专门测试、开发更为高效且精准的重矿物智能识别软件技术。该数据集样本来自雅鲁藏布江（16A063，N29°19′13.5″，E88°51′28.4″，日喀则丛松村心滩沉积）、朋曲河（16B027，N28°09′35.96″，E87°20′45.87″，定日县曲当乡边滩沉积）、长江（16A001，N32°10′0.02″，E118°58′41.61″;南京栖霞山边滩）。使用南京大学内生金属矿床成矿机制研究国家重点实验室的场发射电镜Carl Zeiss Supra 55与能谱仪Oxford Aztec X-Max 150，在加速电压15Kv、束流60A环境下对所制重矿物靶样进行无标样能量散射X射线光谱定性和定量分析，分析时间分别为90秒、40秒和6秒，获得不同分析时间下重矿物中矿物元素的质量分数数据，包括22类重矿物共2256个颗粒。该数据集包含的河流砂重矿物类别为锆石、磷灰石、独居石、金红石、榍石、磁铁矿、黄铁矿、十字石、电气石、白云母、黑云母、普通辉石、斜顽辉石、透辉石、易变辉石、正铁辉石、铁铝榴石、钙铝榴石、普通角闪石、阳起石、绿帘石、黝帘石。EDS测试的元素氧化物含量包括50类：Ag2O, Al2O3, As2O3, Au2O3, BaO, Br2O5, CaO, Ce2O3, CoO, Cr2O3, Dy2O3, Eu2O3, Er2O3, FeO, Gd2O3, HfO2, HgO, In2O3, IrO2, K2O, La2O3, MgO, MnO, Na2O, NaO, Nb2O5, Nd2O3, OsO2, P2O5, Pm2O3, Pr2O3, PtO2, Rb2O, Ru203, Sc2O3, SiO2, Sm2O3, SO3, Ta2O5, TeO2, ThO2, TiO2, Tl2O, UO3, V2O5, WO3, Y2O3, Yb2O3, ZrO2, ZnO。本研究采用传统机器学习方法对重矿物的能谱数据进行自动分类识别。通过对不同分类器、不同决策因素、不同地区的数据进行对比试验，提出选择26个元素成分作为决策属性，采用随机森林算法可以很好地区分不同种类的重矿物。运用不同的机器学习方法对不同测试时间获得的能谱数据对比分析发现，测试6秒获得的能谱数据的分类效果与40秒和90秒有近似的效果，这为将来缩短实验的时间与成本、提高重矿物鉴定与量化分析效率提供了理论依据。针对河流砂重矿物分类中存在的单个流域带标记训练样本不足、带标记的重矿物样本数量稀少的问题，将每个流域的重矿物分类视为一个单独的任务，提出了一种多任务学习方法MTMC，捕获流域共享和流域特有的重矿物特征，联合训练各任务模型参数，可以有效提高每个流域和每个重矿物分类预测性能和分类准确性。该数据集不仅对于认识青藏高原不同支流河流砂中重矿物的类别和组成，研究河流沉积物从源到汇搬运过程具有重要意义，还为快速、经济、准确地智能识别重矿物的优化算法提供了数据基础和依据，未来在更为高效、精准且经济的重矿物智能识别软件技术的研发上具有重要的科学意义和社会应用价值。本数据集相关的论文发表在：Huizhen Hao, Ronghua Guo, Qing Gu, Xiumian Hu. Machine learning application to automatically classify heavy minerals in river sand by using SEM/EDS data. Minerals Engineering, 2019, 143, 105899. https://doi.org/10.1016/j.mineng.2019.105899.

提供机构：

郝慧珍,胡修棉,赖文,郭荣华

创建时间：

2022-05-18

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录