zpn/zinc20

Hugging Face2023-01-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zpn/zinc20

下载链接

链接失效反馈

官方服务：

资源简介：

Zinc20是一个公开的化学分子数据库，包含了商业可用和注释的化合物，提供了2D和3D版本的下载，并支持快速分子查找和类似物搜索。该数据集包含约10亿个分子，已经过滤掉了无法从SMILES转换为SELFIES表示的化合物。数据集分为训练集、验证集和测试集，分别包含约8亿、1亿和1亿个样本。数据集的总大小约为294GB，下载大小约为40GB。

Zinc20 is a public chemical molecular database that contains commercially available and annotated compounds. It provides downloads of 2D and 3D versions of the compounds, and supports rapid molecular lookup and analog search. This dataset contains approximately 1 billion molecules, and compounds that cannot be converted from SMILES to SELFIES representations have been filtered out. The dataset is split into training, validation and test sets, which contain approximately 800 million, 100 million and 100 million samples respectively. The total size of the dataset is approximately 294 GB, and the download size is about 40 GB.

提供机构：

zpn

原始信息汇总

数据集概述

数据集名称

名称: Zinc20
别名: zinc20

数据集特征

特征:
- selfies: 字符串类型
- smiles: 字符串类型
- id: 字符串类型

数据集大小

总大小: 294437949856 字节
下载大小: 40061255073 字节
类别: 1B<n<10B

数据集分割

训练集:
- 示例数量: 804925861
- 字节数: 238295712864
验证集:
- 示例数量: 100642661
- 字节数: 26983481360
测试集:
- 示例数量: 101082073
- 字节数: 29158755632

数据集标签

标签:
- bio
- selfies
- smiles
- small_molecules

许可证

许可证: MIT

搜集汇总

数据集介绍

构建方式

ZINC20数据集的构建，始于对公开商业可用及注释化合物的整合。该数据集源于https://zinc20.docking.org/的初始发布，研究者们在此基础上增添了`selfies`字段，并对无法转换为`selfiles`表示的化合物进行了过滤，以确保数据的一致性和可用性。数据集的划分遵循80/10/10的训练/验证/测试随机分配，以此确保模型的评估和泛化能力。

特点

ZINC20数据集的特点在于其规模宏大，包含近10亿个分子，覆盖了广泛的小分子化合物。其独特的`selfies`和`smiles`字段提供了分子结构的多样化表示，便于不同类型的研究和应用。数据集的随机分割，确保了数据的多维度利用和模型评估的公正性。

使用方法

使用ZINC20数据集时，用户可以从其官网下载2D和3D版本的化合物，或者通过网站进行快速的分子查找和类似物搜索。数据集的随机分割使得用户可以根据需要选择训练、验证或测试数据，为药物发现、分子建模等领域的研究提供了强大的数据支持。用户在利用该数据集时，应遵循MIT许可证的规定。

背景与挑战

背景概述

ZINC20数据集，作为ZINC数据库的一个版本，由John J. Irwin等研究人员于2020年推出，隶属于美国化学学会。该数据集汇集了约10亿个商业可用且标注完备的化合物，旨在为药物发现中的配体发现提供一种高效的工具。ZINC20不仅提供了可下载的2D和3D分子版本，还拥有一个支持快速分子查找和类似物搜索的网站。自2005年不足100万个化合物起，ZINC数据库已增长至近20亿个化合物，对化学信息学领域产生了深远的影响。

当前挑战

在构建ZINC20数据集的过程中，研究人员面临了诸多挑战。首先，数据集的初始化和标准化处理需筛选出可转换为`selfies`表示形式的分子，这涉及到对大量化合物的有效性检验。其次，数据集的规模巨大，对存储和计算资源提出了较高要求。此外，数据集在支持具体任务和 leaderboard方面尚需进一步的信息补充，以促进更广泛的应用和研究。

常用场景

经典使用场景

在化学信息学领域，ZINC20数据集的经典使用场景主要在于药物设计与发现过程中的分子筛选。研究人员可通过数据集中的SMILES（简化分子输入线性表达式）和SELFIES（自描述分子输入格式）两种表示形式，对数以亿计的化合物进行快速查询与相似物搜索，从而高效地识别潜在药物分子。

解决学术问题

ZINC20数据集的构建解决了化学研究中分子数据获取与处理的高成本问题。它为学术界提供了一个规模宏大、结构清晰的化合物数据库，使得研究人员能够便捷地进行药物分子的虚拟筛选，大大降低了药物研发的门槛，加速了新药的发现过程。

衍生相关工作

基于ZINC20数据集，学术界衍生出了一系列相关工作，如分子性质预测模型、药物分子优化算法等。这些相关工作进一步扩展了数据集的应用范围，促进了化学信息学与其他领域的交叉融合，如机器学习、生物信息学等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集