molecules
收藏Hugging Face2026-04-26 更新2026-04-27 收录
下载链接:
https://huggingface.co/datasets/Fangyinfff/molecules
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含多个3D分子数据集的集合,整合在一个受控的Hugging Face数据集仓库中。包含的数据集有:GEOM-Drugs(约7GB,304K分子)、GEOM-QM9(包含在GEOM中,约130K分子)、SPICE v2(约7GB,19K分子/1.1M构象)、Molecule3D(约15GB,3.9M分子)、PCQM4Mv2(约17GB SDF,3.8M分子)、ZINC20 3D Conformers(SDF格式,约50-200GB,数亿分子)和PubChem 3D Conformer(数百GB,100M+分子)。每个数据集存储在其自己的顶级文件夹中。需要注意的是,PubChem3D和ZINC3D数据集可能非常大,下载时有选项限制。
创建时间:
2026-04-24
原始信息汇总
数据集概述
数据集名称: Molecules
数据集地址: https://huggingface.co/datasets/Fangyinfff/molecules
许可类型: 其他(other)
任务类别: 其他(other)
数据集内容
该数据集是一个整合了多个3D分子数据集的集合,所有数据集中存储于一个Hugging Face数据集仓库中。主要包含以下子数据集:
| 子数据集名称 | 简介 | 大小 | 状态 |
|---|---|---|---|
| geom_drugs | GEOM-Drugs(含QM9) | 约7GB,约30.4万个分子 | 已上传 |
| geom_qm9 | GEOM-QM9(包含在GEOM中) | 约13万个分子 | 已上传 |
| molecule3d | Molecule3D | 约15GB,约390万个分子 | 已上传 |
| pcqm4mv2 | PCQM4Mv2 | 约17GB(SDF格式),约380万个分子 | 已上传 |
| zinc3d | ZINC20 3D Conformers(SDF格式) | 约50~200GB(取决于tranche选择),数亿个分子 | 已上传 |
| pubchem3d | PubChem 3D Conformer | 数百GB,超过1亿个分子 | 已上传 |
| spice | SPICE v2 | 约7GB,约1.9万个分子 / 110万个构象 | 上传失败(未上传) |
存储布局
每个子数据集存储在该仓库的独立顶级文件夹下。
注意事项
- pubchem3d 数据集非常大,除非使用
--pubchem3d-full参数,否则下载器默认仅下载有限子集。 - zinc3d 数据集的大小也取决于tranche选择,可能变得非常大。
- geom_qm9 数据集的下载会复用为
geom_drugs下载的GEOM存档。
搜集汇总
数据集介绍

构建方式
分子数据集(Molecules)是一个集成了多个公开3D分子构象数据集的综合性资源库,旨在为计算化学与药物设计领域提供标准化数据支持。该数据集通过从GEOM-Drugs、GEOM-QM9、SPICE、Molecule3D、PCQM4Mv2、ZINC20及PubChem3D等权威来源获取原始数据,并经过本地清洗与预处理后统一上传至HuggingFace平台,采用分顶层文件夹存储的布局方式,便于用户按需访问。其中SPICE数据集因上传失败未被纳入,而GEOM-QM9则共享GEOM-Drugs的下载档案以节约存储空间。ZINC20与PubChem3D数据规模极为庞大,默认仅包含子集,可通过特定参数加载完整内容。
特点
该数据集最显著的特征在于其规模与多样性,涵盖从数千到上亿级别的分子构象,总存储空间超670GB,为药物虚拟筛选与构象分析提供了海量样本。数据集内包含QM9系列、SPICE、Molecule3D等经典及新兴分子库,覆盖有机小分子、药物类似物及金属配合物等多种化学空间,搭配明确的版本状态与清洗标记,确保数据可复现性。此外,ZINC20与PubChem3D等超大子集支持选择性下载,平衡了存储需求与探索广度,而GEOM系列内部存档复用则体现了资源优化设计的巧思。
使用方法
使用分子数据集时,用户可通过HuggingFace的datasets库直接加载指定子集,例如通过指定子文件夹名称(如'geom_drugs')访问对应数据。对于ZINC20和PubChem3D,需在下载脚本中启用'--pubchem3d-full'等标志以获取完整数据,避免默认局限于有限子集。各数据集以标准SDF或处理后的格式存储,可直接用于分子图神经网络的训练、构象生成模型的评估或量子化学性质的预测。建议用户优先验证数据清洗状态,并利用分文件夹结构进行模块化实验设计,以提升数据管理效率。
背景与挑战
背景概述
分子结构数据的系统化积累是推动计算化学与药物设计领域发展的关键基石。在这个背景下,Molecules数据集应运而生,由相关研究团队于近年创建,旨在整合多个主流三维分子构象数据集,形成一个统一、可访问的资源仓库。该数据集涵盖了GEOM-Drugs、GEOM-QM9、Molecule3D、PCQM4Mv2、ZINC20 3D Conformers以及PubChem 3D Conformer等子集,总计包含数亿个分子及其三维构象,规模宏大。其核心研究问题在于解决分子几何信息分散、格式多样、获取门槛高的问题,为机器学习模型训练提供标准化、高质量的基准数据。Molecules数据集的影响力体现在它极大地促进了分子性质预测、逆合成分析、构象生成等前沿课题的进展,成为该领域重要的数据基础设施。
当前挑战
Molecules数据集所面临的挑战首先源于其解决的领域问题:分子三维构象的精确表征与高效利用。现有模型虽能基于大量构象数据学习结构-性质关系,但构象空间采样不完整、量子力学计算与力场模型间的精度差异,仍是制约预测可靠性的瓶颈。此外,数据集构建过程遭遇多重困难。数据规模浩大,特别是ZINC20与PubChem3D分别达到数百GB,对存储与传输构成严峻考验,下载策略需精心设计以避免资源浪费。异构数据源的清洗与标准化也极具挑战,例如SPICE子集上传失败,暴露出不同格式与协议下的兼容性问题。同时,重复数据的检测与消除、大型文件的分块管理,均在工程层面增加了实现的复杂性。
常用场景
经典使用场景
在计算化学与人工智能的交叉领域,molecules数据集汇集了多个权威的3D分子结构库,包括GEOM-Drugs、GEOM-QM9、PCQM4Mv2及ZINC20 3D构象等。其经典使用场景集中在分子几何深度学习模型的训练与评估中,例如用于预测分子性质(如能量、带隙)、构象生成以及力场参数化。研究者可直接利用其数百万级别的3D坐标与构象信息,开展从量子化学属性回归到分子动力学模拟特征学习的广泛任务,为分子表征学习提供了大规模、多样化的几何基准。
衍生相关工作
基于molecules数据集,学术界衍生出一系列里程碑式工作。例如,Equiformer等几何等变图神经网络在其子集上验证了旋转平移不变性在能量预测中的优势;DiffDock等扩散模型利用GEOM构象数据实现了蛋白质-配体结合位点的精准生成;而GemNet和ForceNet等模型则借助PCQM4Mv2的多构象标签,在分子动力学轨迹预测上取得突破。此外,该数据集还催生了大规模预训练范式,如GeoSSL和GraphMVP,其通过对比学习挖掘3D结构与2D拓扑之间的互补信息,树立了分子表征学习的全新标杆。
数据集最近研究
最新研究方向
当前,分子数据集的研究前沿聚焦于大规模三维构象数据的整合与多尺度分子表征学习。诸如Molecules项目将GEOM-Drugs、PCQM4Mv2、ZINC20及PubChem3D等海量数据集统一收纳,为深度学习驱动的药物发现与材料设计提供了前所未有的数据基础。这些资源不仅支撑着等变图神经网络和扩散模型在构象生成、性质预测中的突破性应用,更与AlphaFold3等热点事件形成互补,推动从静态结构向动态构象空间的跨越。其深远意义在于加速了分子模拟与人工智能的融合,为精准医学和绿色化学中的逆向设计提供了标准化基准,正重塑计算化学的研究范式。
以上内容由遇见数据集搜集并总结生成



