Alchemy

Name: Alchemy
Creator: 腾讯1，香港中文大学2，多伦多大学3，清华大学4，向量研究所5
Published: 2019-06-22 18:27:00
License: 暂无描述

arXiv2019-06-22 更新2024-06-21 收录

下载链接：

https://alchemy.tencent.com

下载链接

链接失效反馈

官方服务：

资源简介：

Alchemy数据集是由腾讯等机构创建，专注于化学和材料科学的机器学习模型开发。该数据集包含119,487个有机分子，每个分子具有多达14个重原子，涵盖12种量子力学属性。数据来源于GDB MedChem数据库，通过PySCF计算框架计算得到。Alchemy数据集不仅扩展了现有分子数据集的体积和多样性，还特别关注药物化学领域，旨在通过提供高质量数据促进机器学习模型在化学和材料科学中的应用，解决分子属性预测等关键问题。

The Alchemy dataset was created by Tencent and other institutions, focusing on the development of machine learning models for chemistry and materials science. It contains 119,487 organic molecules, each with up to 14 heavy atoms, covering 12 quantum mechanical properties. The data is derived from the GDB MedChem database and calculated via the PySCF computational framework. The Alchemy dataset not only expands the scale and diversity of existing molecular datasets but also pays special attention to the field of medicinal chemistry, aiming to promote the application of machine learning models in chemistry and materials science by providing high-quality data and addressing key issues such as molecular property prediction.

提供机构：

腾讯1，香港中文大学2，多伦多大学3，清华大学4，向量研究所5

创建时间：

2019-06-22

搜集汇总

数据集介绍

构建方式

在量子化学与机器学习交叉领域，Alchemy数据集的构建体现了对高质量计算数据的严谨追求。该数据集从GDB MedChem数据库中筛选出119,487个有机分子，这些分子包含最多14个重原子，涵盖碳、氮、氧、氟、硫和氯等原子类型。通过Python-based Simulations of Chemistry Framework（PySCF）工具，采用B3LYP/6-31G(2df,p)水平的密度泛函理论，系统计算了每个分子的12项量子力学性质，包括偶极矩、极化率、最高占据轨道与最低未占据轨道能量等。整个生成过程历经多轮几何结构优化，并利用密度拟合技术提升计算效率，总计消耗约300万CPU小时，确保了数据在化学精度上的可靠性。

使用方法

Alchemy数据集主要用于训练和评估预测分子性质的机器学习模型，尤其适合图神经网络架构。研究人员可依据任务需求采用分层划分或基于分子大小的划分策略，前者确保训练集与测试集覆盖全部性质范围，后者则模拟从较小分子向较大分子的知识迁移场景。在模型输入方面，节点特征可包括原子类型、原子序数、氢原子数量等，边特征则可整合键类型与原子间距离。通过多任务学习框架，模型能够同时预测12项量子力学性质，数据集附带的标准基准测试结果为不同模型的性能比较提供了可靠依据。

背景与挑战

背景概述

在量子化学与材料科学领域，机器学习模型的开发亟需高质量、大规模的数据集作为支撑。Alchemy数据集由腾讯、香港中文大学、多伦多大学、清华大学及Vector Institute的研究团队于2019年联合创建，旨在为有机分子的量子力学性质预测提供基准测试平台。该数据集从GDB MedChem数据库中采样，涵盖多达14个重原子的119,487个有机分子，并计算了12项量子力学属性，如偶极矩、极化率与HOMO-LUMO能隙等。相较于已有的QM系列数据集，Alchemy在分子规模与原子多样性上显著扩展，尤其聚焦于药物化学应用，为图神经网络等先进模型提供了更丰富的验证场景，推动了化学与材料科学中AI方法的发展与标准化评估。

当前挑战

Alchemy数据集致力于解决量子化学性质预测中的核心挑战，即如何构建高精度、可泛化的机器学习模型以替代计算昂贵的量子化学模拟。具体而言，该任务需克服分子结构复杂性带来的表征难题，例如如何有效融合三维几何信息与化学键特征以提升预测准确性。在数据集构建过程中，研究团队面临两大挑战：一是分子几何结构优化耗时巨大，需结合多种计算工具（如OpenBabel与PySCF）以平衡效率与精度，但不同优化路径可能导致与QM9数据集在偶极矩等属性上出现偏差；二是数据格式兼容性问题，传统数据集如QM9缺乏化学键信息，易在跨工具处理时引发歧义，为此Alchemy采用SD文件格式以确保分子图结构的无损传递。

常用场景

经典使用场景

在量子化学与材料科学领域，Alchemy数据集作为基准测试工具，广泛应用于评估和优化图神经网络模型。该数据集包含超过11万有机分子的12种量子力学性质，其分子结构涵盖碳、氮、氧、氟、硫和氯等重原子，为模型提供了丰富的化学多样性。研究者通过Alchemy数据集，能够系统性地检验模型在预测分子电子结构、热力学性质等方面的性能，从而推动机器学习在计算化学中的方法学创新。

解决学术问题

Alchemy数据集有效应对了现有分子数据集在规模与多样性上的局限，解决了量子化学性质预测中模型泛化能力不足的学术挑战。相较于QM9等传统数据集，Alchemy扩展了分子尺寸与原子类型范围，尤其聚焦于药物化学相关分子，为研究模型在跨尺寸分子间的迁移学习、少样本学习等前沿问题提供了高质量数据基础。该数据集通过标准化计算流程，确保了量子化学性质的一致性与可靠性，显著提升了机器学习模型在复杂化学环境中的预测精度与稳健性。

实际应用

Alchemy数据集在药物发现与材料设计等实际场景中展现出重要价值。通过高效预测分子的量子力学性质，如HOMO-LUMO能隙、偶极矩和极化率等，该数据集助力加速候选药物的虚拟筛选与功能材料的高通量设计。在工业界，基于Alchemy训练的模型能够替代部分耗时昂贵的量子化学计算，为化学合成路径优化、分子性质快速评估提供可靠的计算支持，从而降低研发成本并提升创新效率。

数据集最近研究