tidy-MDQM9nc
收藏Hugging Face2026-03-30 更新2026-03-31 收录
下载链接:
https://huggingface.co/datasets/niklastr/tidy-MDQM9nc
下载链接
链接失效反馈官方服务:
资源简介:
tidy-MDQM9nc 是一个用于训练可转移采样器的完整数据集。该数据集包含训练集、验证集和测试集,分别包含12,306、100和100个分子,每个分子对应16,000(训练/验证)或36,000(测试)个构象。训练数据以webdataset格式存储,包含原子坐标的(N,4)数组和SMILES文本文件;验证/测试数据保持原始轨迹顺序,基于重原子对距离拟合TICA模型,并以每分子npz块存储。此外,还提供了作为分子力学势能函数(如GAFF)的拓扑结构tar存档。该数据集支持分子构象采样和热力学性质预测等任务。
创建时间:
2026-03-26
搜集汇总
数据集介绍

构建方式
在计算化学领域,分子构象采样是预测热力学性质的关键基础。tidy-MDQM9nc数据集基于MDQM9-nc原始数据构建,专为训练可迁移采样器而设计。其构建过程采用了系统化的数据处理流程:训练集数据经过随机采样,被组织成包含原子坐标数组和SMILES字符串文件的webdataset格式;验证集与测试集则保留了原始分子动力学轨迹的顺序,并基于重原子对距离拟合了时间独立成分分析模型,存储为按分子分块的npz文件。此外,数据集还提供了以tar归档形式存储的分子拓扑结构,用于支持分子力学势能函数的计算。
使用方法
对于致力于发展分子构象生成与采样的研究人员而言,tidy-MDQM9nc数据集提供了清晰的使用路径。用户可直接利用其预处理的webdataset格式进行深度学习模型的训练,其中包含的坐标与分子标识符简化了数据加载过程。在进行模型验证或深入构象空间分析时,则可调用按分子存储的npz文件,这些文件包含了基于轨迹的TICA模型结果,便于评估采样质量与动力学特性。若研究涉及基于力场的能量计算或进一步模拟,数据集附带的拓扑归档文件可直接用于初始化分子力学计算环境,实现了从机器学习训练到物理验证的无缝衔接。
背景与挑战
背景概述
在计算化学与药物设计领域,精确预测小分子的热力学性质依赖于对其构象空间的全面采样。MDQM9nc数据集由Juan Viguera Diez与Simon Olsson等人于2024年构建并发布,其核心研究问题在于通过分子动力学模拟生成小分子的平衡构象集合,以支持自由能计算等关键任务。该数据集作为Surrogate Model-Assisted Molecular Dynamics(SMA-MD)方法的基础,旨在克服传统模拟方法在采样效率与多样性上的局限,为发展可迁移采样器提供了高质量的训练与评估资源,显著推动了基于机器学习的分子模拟技术进步。
当前挑战
该数据集致力于解决小分子构象采样与热力学性质预测的挑战,其核心在于如何高效捕捉高维构象空间中的罕见但关键的亚稳态,以及准确估计自由能等复杂物理量。在构建过程中,研究人员面临多重困难:一方面,需要生成涵盖不同分子大小与柔性程度的多样化构象,确保数据集的代表性与平衡性;另一方面,原始分子动力学轨迹的数据量极大,需设计有效的降维与存储策略,如基于重原子对距离的TICA模型拟合,并将拓扑信息与坐标数据整合为标准化格式,以实现大规模机器学习模型的训练与验证。
常用场景
经典使用场景
在计算化学与药物发现领域,分子构象采样是理解分子动态行为与热力学性质的基础。tidy-MDQM9nc数据集通过提供大规模、高覆盖度的分子动力学轨迹数据,为训练可迁移采样器提供了核心资源。其经典使用场景在于支持生成模型与机器学习方法,如Surrogate Model-Assisted Molecular Dynamics(SMA-MD),以高效探索小分子的构象空间,替代传统耗时的分子动力学模拟,从而加速构象集合的生成与优化。
解决学术问题
该数据集致力于解决分子模拟中构象采样不足与计算成本高昂的学术挑战。通过整合多种分子体系的高维轨迹数据,它使得研究人员能够开发更精确的采样算法,以逼近玻尔兹曼分布,进而准确预测热力学性质如溶剂化自由能。其意义在于推动了计算化学与机器学习交叉领域的发展,为药物设计中的分子性质预测提供了可靠的数据基础,显著提升了采样效率与多样性。
实际应用
在实际应用中,tidy-MDQM9nc数据集广泛应用于药物发现与材料设计流程。例如,在虚拟筛选中,利用该数据集训练的采样器可以快速生成候选分子的构象集合,辅助评估其结合亲和力与稳定性。此外,它支持隐式溶剂化自由能的计算,为优化药物分子的溶解性与生物活性提供关键见解,从而缩短实验周期并降低研发成本。
数据集最近研究
最新研究方向
在计算化学与药物发现领域,分子构象采样是预测热力学性质的关键挑战。tidy-MDQM9nc数据集作为MDQM9-nc的优化版本,专为训练可迁移采样器设计,其前沿研究聚焦于利用深度生成模型增强分子动力学模拟。通过结合替代模型辅助分子动力学方法,研究者能够高效生成多样化的低能构象集合,从而精确估算隐式溶剂化自由能等热力学参数。这一方向不仅推动了高效采样算法的发展,也为加速药物候选分子的筛选与材料设计提供了可靠的计算基础,在人工智能驱动的分子模拟中展现出重要潜力。
以上内容由遇见数据集搜集并总结生成



