five

Pixelatory/GDB-13

收藏
Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Pixelatory/GDB-13
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含975,820,226个样本,这些样本是从原始数据集Entire GDB-13中提取的,并且只包含独特的、经过RDKit规范化的SMILES分子,以CSV格式存储。数据集的大小类别为100M到1B之间。

该数据集包含975,820,226个样本,这些样本是从原始数据集Entire GDB-13中提取的,并且只包含独特的、经过RDKit规范化的SMILES分子,以CSV格式存储。数据集的大小类别为100M到1B之间。
提供机构:
Pixelatory
原始信息汇总

数据集概述

标签

  • 化学
  • 生物学

数据规模

  • 100M<n<1B

样本数量

  • 975,820,226 个样本

数据格式

  • CSV 格式

数据内容

  • 仅包含唯一的、RDKit 标准化的 SMILES 分子

数据来源

  • 原始数据集来源:GDB-13,可在 https://gdb.unibe.ch/downloads/ 下载
搜集汇总
数据集介绍
main_image_url
构建方式
在化学信息学领域,大规模分子数据库的构建对于药物发现与材料科学至关重要。Pixelatory/GDB-13数据集源自著名的GDB-13(Generated Database of 13 atoms)原始资源,该资源通过系统枚举所有可能由碳、氮、氧、硫等元素组成且符合化学稳定规则的有机小分子结构而生成。本数据集在此基础上,运用RDKit化学信息学工具对原始分子进行标准化处理,提取并保留了唯一的、经过规范化的SMILES字符串表示,最终以CSV格式整理存储,确保了数据的一致性与可计算性。
特点
该数据集的核心特征在于其规模与独特性,共包含超过9.75亿个样本,涵盖了由最多13个重原子构成的海量有机分子空间。每个分子均以规范的SMILES线性符号编码,这种表示形式便于机器学习模型直接解析与学习。数据经过严格的去重与标准化处理,消除了冗余与不一致性,为高通量虚拟筛选、分子生成与性质预测等任务提供了高质量、结构化的基础资源。
使用方法
在计算化学与人工智能交叉研究中,该数据集可作为训练或评估分子表示学习、生成模型以及定量构效关系分析的基准。研究人员可直接加载CSV文件,利用RDKit等化学信息学库将SMILES字符串转换为分子图或指纹特征,进而输入图神经网络或序列模型。它适用于无监督的分子表征预训练,也可作为监督学习任务中分子属性预测的数据源,为探索广阔的化学空间提供了高效的计算载体。
背景与挑战
背景概述
在计算化学与药物发现领域,分子数据库的构建对于高通量虚拟筛选与新型化合物设计至关重要。GDB-13数据集由瑞士伯尔尼大学的研究团队于2011年创建,其核心研究问题聚焦于系统枚举所有可能由碳、氢、氮、氧、硫和卤素原子组成的小分子结构,旨在探索化学空间的理论边界。该数据集通过提供数十亿个独特的有机分子结构,极大地推动了化学信息学、机器学习辅助分子生成及性质预测等领域的发展,成为后续研究如GDB-17等扩展工作的基石。
当前挑战
GDB-13数据集致力于解决化学空间中分子结构枚举与表征的根本挑战,其核心在于如何高效生成并管理理论上可能存在的数十亿个小分子,同时确保化学合理性与多样性。在构建过程中,研究人员面临计算复杂性高、存储需求庞大等难题,需开发专门算法以处理原子组合的组合爆炸问题,并采用规范化表示如SMILES字符串来压缩数据。此外,数据清洗与去重步骤要求精确的化学信息学工具支持,以消除冗余结构并保证数据质量,为后续应用奠定可靠基础。
常用场景
经典使用场景
在化学信息学领域,GDB-13数据集以其庞大的小分子结构库著称,为计算化学研究提供了丰富的素材。该数据集最经典的使用场景在于分子生成与虚拟筛选,研究人员利用其包含的独特、规范化的SMILES字符串,通过机器学习模型探索化学空间,设计具有特定性质的新化合物,从而加速药物发现和材料科学的进程。
解决学术问题
GDB-13数据集有效解决了化学研究中化学空间探索受限的学术难题。它通过系统枚举所有可能的有机小分子结构,为理论化学提供了全面的基准,帮助学者验证分子建模算法的准确性与效率。其意义在于推动了计算化学向高通量、自动化方向发展,为理解分子多样性奠定了数据基础,促进了跨学科研究融合。
衍生相关工作
基于GDB-13数据集,衍生出多项经典研究工作,尤其在生成模型和性质预测方面表现突出。例如,研究人员开发了深度生成模型如VAE和GAN,用于高效探索化学空间;同时,该数据集支持了分子图神经网络的发展,推动了自动化分子设计工具的进步,为化学人工智能领域贡献了关键基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作