five

THEMol

收藏
github2026-05-15 更新2026-05-20 收录
下载链接:
https://github.com/ByteDance-Seed/THEMol
下载链接
链接失效反馈
官方服务:
资源简介:
THEMol(Torsion, Hessian, Energy of Molecules)是一个针对有机分子的量子力学属性开源集合,包含超过30亿个DFT计算,探索了多达50个重原子的有机分子的分子内势能面,涵盖12种关键元素和多种分子结构,适用于药物发现、电解质、离子液体等领域。它包含五个子集,提供优化的几何结构、松弛轨迹、Hessian矩阵和原子多极矩等属性。
创建时间:
2026-05-15
原始信息汇总

THEMol 数据集详情

数据集简介

THEMol(Torsion, Hessian, and Energy of Molecules)是一个面向有机分子的量子力学性质开源数据集。该数据集提供了对包含多达50个重原子的有机分子分子内势能面的全面探索,包含总计超过30亿次DFT计算。

数据覆盖范围

  • 化学空间:涵盖12种基本元素,覆盖与药物发现、电解质、离子液体等相关的多样化分子架构。
  • 构象采样:包含全面的环内和环外扭转扫描。
  • Hessian矩阵:在弛豫几何结构上计算,捕获势能面的关键二阶导数信息。
  • 电子密度衍生原子多极矩:通过最小基迭代Stockholder(MBIS)分区方案计算。

数据集子集

数据集包含5个子集,具体如下:

子集 描述
Hessian 优化的分子几何结构及其对应的Hessian矩阵。
Hessian Relax Hessian子集的完整结构弛豫轨迹。
TorsionScan 约束优化后的全面环内和非环扭转扫描。
TorsionScan Relax TorsionScan子集的完整约束结构弛豫轨迹。
MBIS 在优化几何结构上,通过最小基迭代Stockholder(MBIS)方法导出的原子性质和模型参数。

数据访问

数据下载

数据集托管在Hugging Face上,地址为:ByteDance-Seed/THEMol

下载整个数据集: bash hf download ByteDance-Seed/THEMol --repo-type dataset --local-dir data

下载特定子集(例如Hessian): bash hf download ByteDance-Seed/THEMol --repo-type dataset --include "Hessian/*" --local-dir data

数据验证

提供两种验证方式:

  • SHA256校验:对下载的数据集进行SHA256参考文件验证。
  • 自洽性验证:针对每种数据类型(Hessian、MBIS、弛豫、扭转等)验证CSV文件与HDF5文件之间的一致性。

工具与支持

  • 读取示例:位于examples/目录,提供正确解析和读取H5数据文件的代码示例。
  • 统计脚本:位于moleculedataset/stat/目录,用于分析数据集和提取统计信息。
  • 验证套件:基于pytest的验证,确保下载数据集的完整性。

许可协议

引用方式

bibtex @misc{THEMol, title={THEMol dataset: Torsion, Hessian, and Energy of Molecules}, author={Jiashu Liang and Tianze Zheng and Yu Xia and Xingyuan Xu and Xu Han and Zhi Wang and Siyuan Liu and Ailun Wang and Yu Liu and Shiqian Tan and Dongfei Liu and Zhichen Pu and Yuanheng Wang and Qiming Sun and Xiaojie Wu and Wen Yan}, year={2026}, eprint={2605.14973}, archivePrefix={arXiv}, primaryClass={physics.chem-ph}, url={https://arxiv.org/abs/2605.14973}, }

搜集汇总
数据集介绍
main_image_url
构建方式
THEMol数据集由字节跳动Seed团队构建,旨在为有机分子提供全面的量子力学性质集合。该数据集包含五个精心设计的子集,总计超过三十亿次密度泛函理论计算,覆盖了多达50个重原子的有机分子。通过涵盖十二种必需元素及与药物发现、电解质、离子液体等领域相关的多样化分子架构,实现了广泛的化学空间采样。数据集还进行了彻底的构象采样,包括环内和环外的全面扭转扫描,并在松弛几何结构上计算了海森矩阵,以捕捉势能面的关键二阶导数信息。此外,利用最小基组迭代Stockholder方法计算了电子密度衍生的原子多极矩。
特点
THEMol数据集的主要特点在于其无与伦比的全面性和多样性。它提供了前所未有的分子内势能面探索,包含优化的分子几何结构、完整的结构松弛轨迹、约束优化后的扭转扫描及其松弛轨迹,以及MBIS原子性质与模型参数。每个子集均以结构化的格式存储,便于访问和验证。数据集配备有清晰的读取示例和统计脚本,方便用户解析和处理H5格式的数据文件。基于pytest的验证套件确保了数据完整性和自洽性,为用户提供了可靠的数据保障,这对于开发高精度和可迁移的分子势能模型至关重要。
使用方法
使用THEMol数据集首先需要配置Python 3.11及以上环境,并通过pip安装所需的依赖包。克隆仓库并运行脚本初始化项目后,可以通过Hugging Face平台使用`hf download`命令下载整个数据集或特定子集。下载的数据存储在指定目录中,随后可利用提供的pytest测试套件进行完整性验证,包括SHA256校验和自洽性检查,测试涵盖海森矩阵、MBIS、松弛和扭转数据。用户可以参考`examples/`目录中的读取示例来正确解析HDF5文件,并利用`moleculedataset/stat/`中的统计脚本进行数据分析,从而高效地将其应用于分子势能模型的开发与评估。
背景与挑战
背景概述
THEMol数据集由字节跳动Seed团队于2026年发布,核心研究人员包括Jiashu Liang、Tianze Zheng等。该数据集聚焦于有机分子的量子力学性质,旨在通过海量高精度的密度泛函理论(DFT)计算,深入探索包含至多50个重原子的有机分子内势能面。其研究背景源于当前分子动力学模拟与力场开发中对高质量、多样化量子力学参考数据的迫切需求。THEMol涵盖了超过30亿次DFT计算,涉及优化几何、Hessian矩阵、扭转势能面以及基于最小基组迭代Stockholder(MBIS)分划方案的电子密度导出的原子多极矩。该数据集的发布,为发展高精度和可迁移的分子势能模型奠定了坚实基础,在药物发现、电解液设计以及离子液体等领域展现出重要的应用潜力。
当前挑战
THEMol数据集所解决的领域核心挑战在于:现有小分子量子力学数据集普遍存在分子尺寸小、化学空间覆盖有限或仅提供单点能量信息的问题,难以支撑复杂分子体系(如具有柔性环状结构的生物活性分子)的高精度力场开发与机器学习势函数训练。在数据构建过程中,挑战尤为严峻:需要对包含众多自由度的有机分子进行穷尽式构象采样,特别是环内与环外二面角的完整扫描,这要求设计高效的约束优化策略以保证计算可行性;同时,针对大规模有机分子(高达50个重原子)的Hessian矩阵,需兼顾二阶导数信息的完整性与计算资源的可控性,而MBIS原子多极矩的求解则依赖于稳定且快速的电子密度分解算法,成为构建过程的另一技术难点。
常用场景
经典使用场景
在计算化学与机器学习交叉研究领域,THEMol数据集以其对含有多达50个重原子的有机分子内势能面的空前覆盖,成为训练和验证高精度分子力场与神经网络的经典基准。其五大子集——Hessian、Hessian Relax、TorsionScan、TorsionScan Relax及MBIS——分别提供了优化几何结构下的海森矩阵、完整的结构弛豫轨迹、详尽的环内与环外扭转扫描轨迹以及基于MBIS方法的原子多极矩参数。研究者通常利用这些结构明确、属性完备的数据构建机器学习模型,从而精准预测分子构象能量、振动频率和电荷分布,推动有机分子体系物理建模的范式革新。
衍生相关工作
THEMol的发布催生了多项致力于提升分子势能面建模精度与效率的衍生研究。经典工作包括利用其扭转扫描轨迹构建贝叶斯力场矫正策略,以系统性地补偿低水平量子化学方法的系统性误差;基于海森矩阵特征的图神经网络模型被开发用以直接预测振动光谱。此外,结合MBIS原子电荷信息的迁移学习框架显著提升了小分子对接与结合自由能计算的可靠性。这些工作不仅验证了THEMol在推动数据驱动计算化学发展中的核心作用,也进一步拓展了其在多尺度模拟与智能分子设计领域的深度应用。
数据集最近研究
最新研究方向
在分子科学领域,精确描述分子内势能面是力场开发与量子化学计算的核心挑战。THEMol数据集由字节跳动Seed团队推出,聚焦有机分子体系,整合了超过三十亿次DFT计算,涵盖多达50个重原子的构象空间,并创新性地提供了全面的环内与环外扭转扫描、海森矩阵以及基于MBIS方法的电子密度衍生原子多极矩。该数据集不仅为高精度、可迁移分子力场的训练提供了前所未有的基准,也推动了机器学习势函数在药物发现、电解质和离子液体等前沿方向的发展。其开放的架构和详尽的松弛轨迹,为研究者深入理解构象动力学与力场一致性开辟了新路径,被视为连接第一性原理计算与数据驱动分子建模的里程碑式资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作