haydn-jones/ZINC20

Name: haydn-jones/ZINC20
Creator: haydn-jones
Published: 2023-12-24 01:06:14
License: 暂无描述

Hugging Face2023-12-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/haydn-jones/ZINC20

下载链接

链接失效反馈

官方服务：

资源简介：

ZINC20数据集添加了SELFIES表示方法。任何无法成功转换的smile都被从数据集中删除。数据集被完全打乱后，按80%/10%/10%的比例分为训练集、验证集和测试集。数据集的根目录中包含一个vocab.csv文件，其中包含数据中所有找到的SELFIES标记，并添加了[START]、[STOP]和[PAD]。

提供机构：

haydn-jones

原始信息汇总

数据集概述

特征信息

smiles: 数据类型为 large_string
zinc_id: 数据类型为 int64
SELFIES: 数据类型为 string

数据分割

train: 字节数为 393170565049，样本数为 1538340669
val: 字节数为 47753116448，样本数为 192292584
test: 字节数为 46114402425，样本数为 192292584

数据大小

下载大小: 174349539018 字节
数据集大小: 487038083922 字节

配置

config_name: default
- data_files:
  - train: data/train-*
  - val: data/val-*
  - test: data/test-*

许可证

license: MIT

大小分类

size_categories:
- 1B<n<10B

搜集汇总

数据集介绍

构建方式

haydn-jones/ZINC20数据集的构建，旨在整合化学领域内的分子信息。该数据集通过从ZINC20数据库中下载完整数据，随后对SMILES表示的分子结构进行SELFIES编码转换，去除转换失败的记录，最终形成包含SMILES和SELFIES两种表示形式的数据集。数据在经过完全随机打乱后，被划分为训练集、验证集和测试集，比例分别为80%、10%和10%，确保数据分布的均匀性和训练的有效性。

特点

本数据集的特点在于其规模宏大，包含超过十亿条分子记录，且具有两种分子表示形式，即可用于基于SMILES的模型，也可用于基于SELFIES的模型。其遵循MIT许可，开放给研究者和开发者使用。此外，数据集还提供了vocab.csv文件，包含数据中所有SELFIES编码的词汇，以及必要的[START]、[STOP]和[PAD]标记，便于模型处理。

使用方法

使用该数据集时，用户可根据自己的需要选择训练、验证或测试集中的数据。数据集以文件形式组织，可通过路径指定相应的数据分片进行加载。用户需首先确保拥有处理大型数据集的计算资源，并熟悉SELFIES编码和分子数据处理的相关技术。在模型训练前，应使用vocab.csv文件中的词汇表对数据进行预处理，确保模型能够正确解析SELFIES编码。

背景与挑战

背景概述

在化学信息学领域，分子表示学习是构建高效分子模型的关键。ZINC数据库作为有机化学分子信息的宝库，自2005年起便由Docking Group维护，为药物设计和分子建模等领域提供了丰富的数据资源。haydn-jones/ZINC20数据集，作为ZINC数据库的一个版本，由专业的科研团队精心打造，旨在为分子表示学习提供高质量的数据支撑。该数据集不仅包含了超过十亿条分子记录，还特别整合了SELFIES编码，丰富了分子的表达形式，对于推动相关领域的研究具有重要的科学价值。

当前挑战

尽管haydn-jones/ZINC20数据集为研究者提供了丰富的资源，但在使用过程中仍面临诸多挑战。首先，数据集构建过程中，对SMILES编码到SELFIES编码的转换要求严格，任何转换失败的记录均被剔除，这无疑增加了数据处理的复杂性。其次，数据集规模巨大，对计算资源和存储能力提出了较高要求。此外，如何在保证数据质量的同时，高效利用这些数据进行分子模型的训练和评估，也是当前领域内亟待解决的问题。

常用场景

经典使用场景

在化学信息学领域，haydn-jones/ZINC20数据集以其庞大的分子结构数据库而备受瞩目。该数据集提供了超过十亿的化学分子SMILES表示和对应的SELFIES编码，被广泛应用于分子性质预测、药物设计等研究中，成为了化学领域数据挖掘和机器学习任务中的经典资源。

解决学术问题

该数据集解决了化学研究中分子数据不足的问题，为学术界提供了丰富的实验材料。其严格的筛选和划分过程确保了数据的质量和可用性，极大地推动了分子建模、药物筛选等领域的学术研究进展，对提高药物研发效率和降低成本具有重要意义。

衍生相关工作

基于haydn-jones/ZINC20数据集，学术界衍生出了一系列相关研究工作。这些工作不仅涉及分子表示的学习方法，还包括利用该数据集进行分子性质预测、药物再定位等领域的探索，进一步拓展了数据集的应用范围，推动了化学信息学领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集