five

raulsofia/geom_drugs

收藏
Hugging Face2026-04-30 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/raulsofia/geom_drugs
下载链接
链接失效反馈
官方服务:
资源简介:
几何分子集合(GEOM)数据集包含数百万个标注了能量和统计权重的分子构象。此特定存储库托管的是“药物”子集,专注于具有实验数据的现实大小的药物样分子。

The Geometric Ensemble Of Molecules (GEOM) dataset contains millions of molecular conformations annotated by energy and statistical weight. This specific repository hosts the Drugs subset, which focuses on realistically sized drug-like molecules with experimental data.
提供机构:
raulsofia
搜集汇总
数据集介绍
main_image_url
构建方式
GEOM-Drugs数据集源自GEOM(分子几何集成体)项目,专注于药物样小分子的构象生成。构建过程中,原始作者利用CREST和GFN2-xTB方法对分子进行全面的构象采样,随后通过DFT计算为每个构象赋予能量和统计权重。该镜像版本进一步对数据进行精炼,保留了仅含构象文件与SMILES表示的药物子集,并按照每个分子的独特SMILES键严格划分训练集与测试集(80/20比例),确保无分子泄露,为下游机器学习任务提供高度可重复的基准。
特点
该数据集包含两个主要版本:完整版(allconfs)保留所有可用构象,轻量版(5confs)则将每个分子的构象数上限设为5个,以平衡计算资源与信息量。每个版本均提供未拆分文件以及预划分的train/test子目录,内部包含三种互补格式:SDF文件存储3D构象、CSV文件映射SMILES与构象计数、SMI文件提供严格的一一对应SMILES序列,便于快速解析与交叉验证。此外,基于SMILES的拆分策略彻底杜绝了数据泄露,保障模型泛化能力评估的严谨性。
使用方法
用户可根据任务需求灵活选取版本:若需全面覆盖构象空间,可选用allconfs版本;若侧重轻量级训练,可选用5confs版本。数据加载可通过直接解析SDF文件获取分子构象,同时利用CSV文件进行构象数量统计或去重。对于自定义拆分策略(如骨架划分或属性筛选),可忽略预拆分目录,直接从根目录的未拆分文件构建新的训练/测试集。在引用时需注明原始文献,以确保学术合规性。
背景与挑战
背景概述
GEOM-Drugs数据集由Simon Axelrod与Rafael Gómez-Bombarelli于2022年构建,隶属于麻省理工学院学习物质课题组,发表于《Scientific Data》。该数据集聚焦于药物样分子的构象生成与能量标注,旨在解决分子三维构象预测这一计算化学与机器学习交叉领域中的核心问题。通过包含数百万个经过密度泛函理论(DFT)计算标注的构象,它显著推动了对分子性质预测与分子生成模型的研究,成为构象生成、力场校准及分子图表示学习等领域广泛采用的基准资源,对药物发现与材料设计具有深远影响。
当前挑战
数据集所解决的领域挑战在于分子构象空间中能量景观的精确建模,传统方法难以高效覆盖低能构象的多样性与相对稳定性。构建过程中面临的关键挑战包括:对千万级构象进行高精度DFT计算所需的巨大计算资源,以及处理从不同分子骨架生成的构象分布不均衡问题。此外,数据划分需基于分子唯一标识符以避免信息泄露,确保模型的泛化能力,而构象冗余性与能量标注的统计权重分配也对数据预处理和模型评估提出了严苛要求。
常用场景
经典使用场景
GEOM-Drugs数据集作为分子构象生成的基准资源,在计算化学与机器学习交叉领域扮演着核心角色。该数据集汇集了数十万种类药分子的三维构象,并附有量子力学计算得到的能量与统计权重信息,为基于深度学习的构象采样器训练提供了海量高保真数据。研究者常利用其"allconfs"版本训练生成模型以预测分子的低能构象分布,或使用缩减后的"5confs"版本进行快速原型验证,推动了从传统力场方法向数据驱动构象建模的范式转变。
实际应用
在实际药物研发流程中,GEOM-Drugs广泛应用于虚拟筛选与早期先导化合物优化阶段。制药企业利用基于该数据集训练的构象生成器替代传统耗时的分子动力学模拟,快速评估候选分子的三维结构柔性,从而预测药效团空间排布与关键代谢位点。此外,该数据集还赋能计算化学平台进行配体姿态预测与溶剂化自由能计算,显著缩短了新药发现中从苗头化合物到临床候选分子的迭代周期。
衍生相关工作
GEOM-Drugs数据集催生了一系列标志性学术成果,其中最为经典的工作包括等变扩散模型EDM与Score-based生成框架ConfGF,它们直接利用该数据集的能量标注构象进行去噪扩散训练,实现了无约束条件下的自动化构象采样。此外,Stochastic Normalizing Flow架构和GeoMol等几何深度学习模型也在该数据集上进行了关键性能验证,这些工作共同确立了GEOM-Drugs作为构象生成领域标准化测试基准的地位,并为后续像Torsional Diffusion等更精细的环构象建模方法提供了对比基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作