Pixelatory/ZINC-20

Name: Pixelatory/ZINC-20
Creator: Pixelatory
Published: 2024-03-13 16:30:09
License: 暂无描述

Hugging Face2024-03-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Pixelatory/ZINC-20

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,863,903,840个样本，这些样本是从ZINC-20数据集中提取的经过RDKit规范化处理的唯一SMILES分子，以CSV格式存储。数据来源于ZINC-20数据库，收集日期为2023年8月17日，筛选条件为反应设置为标准，可购买性设置为已注释。

This dataset contains 1,863,903,840 samples, which are unique SMILES molecules normalized with RDKit and extracted from the ZINC-20 dataset, stored in CSV format. The data is sourced from the ZINC-20 database, collected on August 17, 2023, with screening criteria of standard reaction settings and annotated purchasability.

提供机构：

Pixelatory

原始信息汇总

数据集概述

数据规模

1B < n < 10B

样本数量

1,863,903,840 个样本

数据格式

CSV 格式

数据来源

ZINC-20 数据集

数据筛选条件

仅包含唯一的、RDKit 标准化的 SMILES 分子
反应集设置为标准
可购买性设置为已注释

数据收集日期

2023年8月17日

搜集汇总

数据集介绍

构建方式

在化学信息学领域，ZINC-20数据集作为大规模分子库的代表，其构建过程体现了严谨的数据整合与标准化原则。该数据集源自ZINC-20在线资源，通过筛选标准反应性和注释可购买性的分子，并采用RDKit工具进行规范化处理，确保每个SMILES字符串具有唯一性和化学一致性。最终，超过18亿个独特分子被提取并组织为CSV格式，形成了这一覆盖广泛化学空间的高质量资源。

特点

ZINC-20数据集的核心特点在于其庞大的规模与高度的化学多样性，涵盖了近19亿个经过标准化的独特分子结构。这些分子均以规范的SMILES表示法编码，不仅便于计算处理，还确保了化学信息的准确性与可重复性。数据集的时效性亦值得关注，其化合物信息截至2023年8月，反映了当前化学库的最新进展，为药物发现与分子设计研究提供了坚实的实证基础。

使用方法

在药物设计与虚拟筛选研究中，ZINC-20数据集可作为分子库用于高通量计算实验。研究人员可直接加载CSV文件，利用SMILES字符串进行分子描述符计算、相似性搜索或机器学习模型训练。该数据集兼容多种化学信息学工具，如RDKit，支持从分子对接模拟到生成式模型开发的广泛应用，为探索化学空间与优化候选化合物提供了高效的数据支撑。

背景与挑战

背景概述

在计算化学与药物发现领域，分子数据库的构建是虚拟筛选与人工智能驱动药物设计的基础。ZINC-20数据集由美国加州大学旧金山分校的Shoichet实验室于2023年8月17日发布，作为ZINC系列数据库的最新版本，其核心研究问题在于提供大规模、高质量且可购买的有机小分子结构信息，以支持高通量分子对接、生成模型训练及化学空间探索。该数据集通过标准化SMILES表示与去重处理，显著提升了分子数据的可靠性与可用性，对加速药物先导化合物发现和计算化学方法的发展产生了深远影响。

当前挑战

ZINC-20数据集致力于解决药物发现中分子可合成性与多样性平衡的挑战，其核心在于从海量化学空间中筛选出兼具生物活性与可购买性的分子，以降低实验验证成本。在构建过程中，数据集面临多重挑战：一是数据规模庞大，超过18亿个样本的存储、去重与标准化处理对计算资源与算法效率提出极高要求；二是分子表征的准确性依赖RDKit等工具的正则化，可能引入化学信息损失；三是数据来源的异构性与动态更新需确保实时性与一致性，以维持其在快速发展的化学信息学领域的实用性。

常用场景

经典使用场景

在药物发现与化学信息学领域，ZINC-20数据集作为大规模分子库的典范，其经典使用场景集中于虚拟筛选与分子对接研究。研究人员借助该数据集中的数十亿个独特、规范化的SMILES分子，能够高效地探索化学空间，识别潜在活性化合物，从而加速先导化合物的发现进程。这种大规模、标准化的数据资源为计算化学方法提供了坚实的实验基础，使得高通量筛选成为可能，显著提升了药物研发的初期效率。

衍生相关工作

围绕ZINC-20数据集，学术界衍生了一系列经典研究工作。例如，基于其分子结构开发的深度生成模型如JT-VAE与GraphINVENT，推动了自动化分子设计的发展；性质预测框架如Chemprop利用该数据集训练了高效的量子化学性质估算器。此外，在反应预测与合成规划领域，诸如Molecular Transformer等模型也依托该数据集进行了验证与优化，这些工作共同构筑了现代计算化学与人工智能交叉研究的基石。

数据集最近研究