THEMol
收藏THEMol 数据集详情
数据集简介
THEMol(Torsion, Hessian, and Energy of Molecules)是一个面向有机分子的量子力学性质开源数据集。该数据集提供了对包含多达50个重原子的有机分子分子内势能面的全面探索,包含总计超过30亿次DFT计算。
数据覆盖范围
- 化学空间:涵盖12种基本元素,覆盖与药物发现、电解质、离子液体等相关的多样化分子架构。
- 构象采样:包含全面的环内和环外扭转扫描。
- Hessian矩阵:在弛豫几何结构上计算,捕获势能面的关键二阶导数信息。
- 电子密度衍生原子多极矩:通过最小基迭代Stockholder(MBIS)分区方案计算。
数据集子集
数据集包含5个子集,具体如下:
| 子集 | 描述 |
|---|---|
| Hessian | 优化的分子几何结构及其对应的Hessian矩阵。 |
| Hessian Relax | Hessian子集的完整结构弛豫轨迹。 |
| TorsionScan | 约束优化后的全面环内和非环扭转扫描。 |
| TorsionScan Relax | TorsionScan子集的完整约束结构弛豫轨迹。 |
| MBIS | 在优化几何结构上,通过最小基迭代Stockholder(MBIS)方法导出的原子性质和模型参数。 |
数据访问
数据下载
数据集托管在Hugging Face上,地址为:ByteDance-Seed/THEMol
下载整个数据集: bash hf download ByteDance-Seed/THEMol --repo-type dataset --local-dir data
下载特定子集(例如Hessian): bash hf download ByteDance-Seed/THEMol --repo-type dataset --include "Hessian/*" --local-dir data
数据验证
提供两种验证方式:
- SHA256校验:对下载的数据集进行SHA256参考文件验证。
- 自洽性验证:针对每种数据类型(Hessian、MBIS、弛豫、扭转等)验证CSV文件与HDF5文件之间的一致性。
工具与支持
- 读取示例:位于
examples/目录,提供正确解析和读取H5数据文件的代码示例。 - 统计脚本:位于
moleculedataset/stat/目录,用于分析数据集和提取统计信息。 - 验证套件:基于
pytest的验证,确保下载数据集的完整性。
许可协议
- 代码许可:Apache License 2.0
- 数据许可:Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
引用方式
bibtex @misc{THEMol, title={THEMol dataset: Torsion, Hessian, and Energy of Molecules}, author={Jiashu Liang and Tianze Zheng and Yu Xia and Xingyuan Xu and Xu Han and Zhi Wang and Siyuan Liu and Ailun Wang and Yu Liu and Shiqian Tan and Dongfei Liu and Zhichen Pu and Yuanheng Wang and Qiming Sun and Xiaojie Wu and Wen Yan}, year={2026}, eprint={2605.14973}, archivePrefix={arXiv}, primaryClass={physics.chem-ph}, url={https://arxiv.org/abs/2605.14973}, }




