ATMOMACCS
收藏arXiv2025-10-23 更新2025-11-05 收录
下载链接:
https://zenodo.org/records/17231684
下载链接
链接失效反馈官方服务:
资源简介:
ATMOMACCS是一个结合了MACCS指纹的易解释性和SIMPOL方法动机的新分子描述符,用于大气科学中的机器学习预测。该描述符旨在更好地捕捉大气化合物的结构特征,同时保持易解释性和计算效率。通过在四个大气化合物数据集上评估,ATMOMACCS在预测饱和蒸汽压、平衡分配系数、玻璃化转变温度和蒸发焓等方面表现出色。
ATMOMACCS is a novel molecular descriptor that integrates the interpretability of MACCS fingerprints and the core rationale of the SIMPOL method, designed for machine learning-driven predictions in atmospheric science. This descriptor aims to better capture the structural features of atmospheric compounds while maintaining interpretability and computational efficiency. Evaluated across four atmospheric compound datasets, ATMOMACCS exhibits outstanding performance in predicting key physicochemical properties including saturated vapor pressure, equilibrium partition coefficients, glass transition temperature, and enthalpy of vaporization.
提供机构:
Aalto University, Finland, Technical University of Munich, Germany
创建时间:
2025-10-23
搜集汇总
数据集介绍
构建方式
在大气化学研究领域,分子描述符的构建需兼顾结构特征与计算效率。ATMOMACCS通过整合MACCS指纹的166个二元结构键与源自SIMPOL方法的氧化功能基元,构建了兼具可解释性与领域适应性的分子表示。其开发流程涵盖四个关键步骤:从SMILES字符串解析分子结构,利用SMARTS模式识别SIMPOL基元,将特征计数转换为二进制或整数编码,最终将MACCS与ATMO特征拼接形成完整描述符。该流程基于Python 3.12.5与RDKit工具包实现,确保与现有计算生态系统的无缝兼容。
特点
作为面向大气有机化合物的专用描述符,ATMOMACCS展现出多维度优势。其核心特征在于融合通用化学结构信息与大气特异性基元,通过五类版本设计实现编码策略的灵活适配。相较于传统描述符,该数据集显著提升了对饱和蒸气压、气粒分配系数等关键物性的预测精度,误差降低幅度达5%-61%。特征重要性分析进一步揭示其内在机理:碳原子数量与氧相关基元主导挥发性预测,而碳氢键类型与杂原子则调控相变热力学参数。这种跨数据集的泛化能力使其成为大气科学中首个可同时解释多类物性的结构描述符。
使用方法
在机器学习应用中,ATMOMACCS可通过核岭回归等算法实现分子物性的高效预测。用户需将分子结构转换为SMILES表示,调用集成于RDKit的工具链生成描述符向量后,划分训练集与测试集进行模型训练。研究证实,采用整数编码的第五版本在多数物性预测任务中表现最优,其SHAP分析功能还可量化特定结构基元对预测结果的贡献度。该描述符已成功应用于四类大气化合物数据集,支持从高通量筛选到机理研究的多种场景,为大气气溶胶形成机制的解析提供了新的计算范式。
背景与挑战
背景概述
ATMOMACCS数据集由芬兰阿尔托大学与德国慕尼黑工业大学联合团队于2025年提出,聚焦大气科学领域机器学习预测的分子描述符开发。该数据集针对大气气溶胶形成机制研究中缺乏专用分子表征工具的瓶颈,通过融合MACCS指纹的166个结构键与SIMPOL方法的氧化态特征,构建具有可解释性的分子描述体系。其创新性体现在将传统基团贡献方法与机器学习结合,显著提升了饱和蒸气压、气液分配系数等关键大气物理化学性质的预测精度,为大气有机化合物高通量筛选提供了重要技术支撑。
当前挑战
该数据集致力于解决大气有机化合物性质预测的复杂性挑战,包括高度氧化分子结构表征困难、传统描述符对氧氮官能团覆盖不足等问题。构建过程中面临多重技术难点:需平衡MACCS通用性与SIMPOL领域特异性,设计兼顾二进制与数值编码的混合表征方案;在整合四类异构数据集时,需克服分子尺寸跨度大(2-82非氢原子)、元素组成差异显著等数据异构性;同时需确保描述符在保持化学可解释性的前提下,实现与核岭回归等机器学习模型的高效适配。
常用场景
衍生相关工作
基于ATMOMACCS数据集衍生的经典研究包括Krüger等人开发的图神经网络与SIMPOL基团贡献的混合模型,显著提升了蒸气压预测精度。Lumiaro团队利用该数据集构建的核岭回归模型,在气粒分配系数预测上实现了突破性进展。Besel等人将该数据集扩展应用于极低挥发性有机化合物的主动学习识别,推动了大气分子聚类研究的发展。这些衍生工作共同构建了可解释机器学习在大气化学中的应用范式,为后续三维分子描述符和神经网络模型的开发奠定了理论基础。
数据集最近研究
最新研究方向
在气溶胶形成与大气化学研究领域,ATMOMACCS分子描述符的提出标志着可解释机器学习方法的重要突破。该描述符通过整合MACCS指纹的166个二元键与SIMPOL方法的结构基元,构建了针对大气氧化有机化合物的专用表征体系。前沿研究聚焦于利用该描述符预测饱和蒸气压、气-粒分配系数等关键性质,在Wang和GeckoQ等大气分子数据集上实现了7-61%的误差降低。特征分析揭示碳原子数与含氧基团主导挥发性预测,而碳氢键类型与杂原子对相变性质影响显著,为理解大气有机化合物构效关系提供了新视角。
相关研究论文
- 1通过Aalto University, Finland, Technical University of Munich, Germany · 2025年
以上内容由遇见数据集搜集并总结生成



