THEMol (Torsion, Hessian, Energy of Molecules)
收藏arXiv2026-05-14 更新2026-05-16 收录
下载链接:
https://arxiv.org/abs/2605.14973v1
下载链接
链接失效反馈官方服务:
资源简介:
THEMol数据集是由字节跳动团队构建的大规模开源量子力学性质集合,专注于闭壳层有机分子,涵盖多达50个重原子。该数据集内容极为丰富,包含超过300万优化几何结构的Hessian矩阵子集、近1亿约束几何结构的扭转扫描子集,以及总计约30亿次DFT计算的弛豫轨迹子集,数据来源整合了UniChem等公共数据库及专有集合。其创建过程通过系统的分子片段化、质子化状态枚举、构象生成及B3LYP-D3(BJ)/DZVP理论级别的量子化学计算完成,并实施了严格的自旋态过滤、去重和几何收敛性质量控制。该数据集旨在为分子力学和机器学习势函数的开发提供坚实基础,特别适用于药物发现、电解质和离子液体等领域的分子势能面精确建模。
The THEMol dataset is a large-scale open-source collection of quantum mechanical properties developed by the ByteDance team, focusing on closed-shell organic molecules containing up to 50 heavy atoms. This dataset is highly comprehensive, including three subsets: the Hessian matrix subset with over 3 million optimized geometric structures, the torsion scan subset with nearly 100 million constrained geometric structures, and the relaxation trajectory subset involving approximately 3 billion total DFT calculations. Its data sources integrate public databases such as UniChem and proprietary collections. Its construction is completed through systematic molecular fragmentation, protonation state enumeration, conformation generation, and quantum chemical calculations at the B3LYP-D3(BJ)/DZVP theoretical level, with strict spin state filtering, deduplication, and geometric convergence quality control implemented. This dataset aims to provide a solid foundation for the development of molecular mechanics and machine learning potential functions, and is particularly suitable for accurate modeling of molecular potential energy surfaces in fields such as drug discovery, electrolytes, and ionic liquids.
提供机构:
字节跳动
创建时间:
2026-05-14
原始信息汇总
数据集名称
THEMol dataset (Torsion, Hessian, Energy of Molecules)
数据集描述
THEMol是一个面向闭壳层有机分子(最多含50个重原子)的大规模开源量子力学性质数据集。
主要属性
- 覆盖元素:涵盖12种必需元素。
- 分子架构:覆盖与药物发现、电解质、离子液体等领域相关的多样化分子结构。
数据集子集
数据集由五个不同的子集组成:
- Hessian 子集:包含超过300万个带有Hessian矩阵的松弛几何结构。
- TorsionScan 子集:包含近1亿个带有能量和力的约束松弛几何结构,提供详尽的构象采样(包括环内和环外扭转发散扫描)。
- HessianRelax 子集:松弛轨迹子集。
- TorsionScanRelax 子集:松弛轨迹子集。
- MBIS 子集:包含通过最小基组迭代Stockholder划分方案计算的电子密度衍生的原子多极矩。
数据规模
- 总计包含约30亿次DFT计算。
- 包含优化的几何结构、松弛轨迹以及衍生的分子性质。
应用价值
该数据集旨在赋能高精度、高迁移性分子势能模型的开发。
搜集汇总
数据集介绍

构建方式
THEMol数据集源自公开数据库UniChem及多个力场训练集、配体发现研究中的化合物,并通过自有图扩展算法将分子切割为不超过70个原子的片段以保留局部化学环境。随后预测pKa值在0.0至14.0范围内的质子化状态,生成约400万个碎片化分子。初始三维构象由RDKit生成,经geomeTRIC优化器在B3LYP-D3(BJ)/DZVP理论水平下弛豫,得到弛豫轨迹与优化几何。从优化构象中选取独特二面角进行扭转扫描,非环扭转每15度旋转一次后约束优化,环内扭转采用逐帧扫描并设置能量阈值提前终止。所有数据经自旋态过滤、去重、几何收敛性及扭转一致性检查后,构成五个子集:Hessian、HessianRelax、TorsionScan、TorsionScanRelax及MBIS。
特点
该数据集覆盖H、B、C、N、O、F、Si、P、S、Cl、Br、I十二种元素,分子含重原子数最高达50个,化学空间涵盖药物发现、电解质、离子液体等广泛领域。Hessian子集包含超过300万弛豫几何的Hessian矩阵,提供势能面二阶导数信息;TorsionScan子集拥有近1亿个约束弛豫几何的能量与力数据,实现对环内与环外扭转的详尽采样。弛豫轨迹子集HessianRelax和TorsionScanRelax合计约30亿步DFT计算。MBIS子集通过PBE0/def2-TZVPD理论水平提供基于电子密度划分的原子多极矩,包括电荷、偶极、四极矩及体积。数据以CSV和HDF5混合格式组织,统一使用UUID标识,保证数据可追溯性。
使用方法
数据集通过Hugging Face仓库公开获取,并配有GitHub代码库提供验证工具、数据加载示例及统计分析脚本。五个子集各有独立CSV元数据文件记录UUID、SMILES及HDF5路径,物理量采用标准单位(坐标以Å,能量及Hessian分别以kcal/mol、kcal/(molŲ)表示)。用户可根据需求选取特定子集:Hessian适用于力场参数化中的二阶导数训练,TorsionScan适合势能面探查,弛豫子集可用于动力学模拟或迁移学习。MBIS提供的原子多极矩可直接用于开发高精度经典或机器学习力场。建议用户在使用含碘分子的MBIS子集时进行常规验证,并注意不同计算引擎间的微小差异。
背景与挑战
背景概述
THEMol数据集由字节跳动Seed团队于2026年5月发布,旨在为有机分子提供大规模、高质量的量子力学(QM)数据。该数据集聚焦于闭壳有机分子,涵盖氢、硼、碳、氮、氧、氟、硅、磷、硫、氯、溴和碘等12种关键元素,分子最多包含50个重原子。其核心研究问题在于解决现有力场(包括分子力学和机器学习势)参数化过程中数据不足和化学空间覆盖有限的挑战。通过包含超过300万Hessian矩阵、近1亿扭转扫描构象以及约30亿DFT计算步骤的弛豫轨迹,THEMol显著扩展了药物发现、电解质和离子液体等领域的数据基础。该数据集以前所未有的规模和系统性,为开发高精度和可迁移的分子势能模型提供了关键支撑,对计算化学和AI for Science领域具有深远影响。
当前挑战
THEMol所应对的核心领域挑战在于,传统力场参数化依赖的QM数据集在化学多样性和势能面覆盖上存在严重不足,难以支撑高精度、可迁移势能模型的开发。具体而言,现有数据集或局限于小分子、或缺乏Hessian矩阵等二阶导数信息,或无法充分采样扭转空间。在构建过程中,团队面临多重技术挑战:首先,需从UniChem等公共数据库和内部化合物库中精选并裂解分子碎片,同时通过质子化状态枚举增强化学空间覆盖;其次,需对非环和环内二面角分别设计15°增量的约束优化和逐帧扫描策略,并通过能量阈值(>20 kcal/mol)提前终止以避免无效计算;此外,还需实施严格的质量控制,包括自旋态过滤、去重、几何收敛性检验(最大原子力范数<0.2 eV/Å)以及扭转角一致性验证,确保数据可靠性。这些挑战的克服使THEMol成为目前规模最大、多样性最丰富的有机分子QM数据库之一。
常用场景
经典使用场景
在计算化学与机器学习力场领域,THEMol数据集为分子势能面的高精度建模提供了核心支撑。其经典使用场景涵盖基于海量Hessian矩阵的力常数参数化、通过扭转扫描数据对二面角势能进行系统拟合,以及利用弛豫轨迹训练能够准确描述分子构象变化的神经网络势函数。该数据集的独特之处在于同时提供超过300万条Hessian矩阵记录与近1亿次约束弛豫几何结构,使得研究者能够全面捕获分子内振动耦合与扭转自由度的能量景观,从而突破传统力场在小分子药物、电解质及离子液体等复杂化学空间中的泛化瓶颈。
解决学术问题
THEMol数据集系统性地应对了有机分子力场开发中长期存在的数据稀疏性与化学空间覆盖不足两大核心挑战。借助其对十二种主族元素及多电荷态分子片段的完整采样,该数据集解决了传统量子化学基准局限于小型或单一元素体系的学术难题。高达30亿次密度泛函理论计算构成的弛豫轨迹,配合亚稳态构象的显式约束优化,为研究分子内非简谐振动、构象跃迁能垒以及反应路径上的鞍点形态提供了前所未有的统计丰度。这些特性使学术界得以在保持B3LYP-D3(BJ)精度前提下,构建出具备跨分子家族迁移能力的通用机器学习势函数,有力推动了力场开发从经验调参向数据驱动的范式转型。
衍生相关工作
THEMol数据集发布后催生了一系列代表性学术成果,其中最引人注目的是在其扭转扫描子集基础上发展的TorsionNet系列深度图神经网络,这类模型通过显式编码二面角约束历史来预测分子力场参数,在涵盖超过2000种有机小分子的基准测试中达到了平均扭角误差低于2度的优异性能。另一项衍生工作则利用THEMol的Hessian子集对等变张量网络架构进行预训练,使得原子级力常数预测模型能够推广至从未在训练集中出现的杂环骨架。此外,基于其弛豫轨迹的主动学习框架被拓展为适用于构象系综重加权的迭代采样器,实现了纳秒级蛋白质-配体复合物结合自由能的可靠估计。这些工作共同验证了该数据集作为基础支撑设施在加速计算化学与人工智能交叉领域发展的强大生命力。
以上内容由遇见数据集搜集并总结生成



