five

haydn-jones/ZINC20

收藏
Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haydn-jones/ZINC20
下载链接
链接失效反馈
官方服务:
资源简介:
ZINC20数据集添加了SELFIES表示方法。任何无法成功转换的smile都被从数据集中删除。数据集被完全打乱后,按80%/10%/10%的比例分为训练集、验证集和测试集。数据集的根目录中包含一个vocab.csv文件,其中包含数据中所有找到的SELFIES标记,并添加了[START]、[STOP]和[PAD]。

ZINC20数据集添加了SELFIES表示方法。任何无法成功转换的smile都被从数据集中删除。数据集被完全打乱后,按80%/10%/10%的比例分为训练集、验证集和测试集。数据集的根目录中包含一个vocab.csv文件,其中包含数据中所有找到的SELFIES标记,并添加了[START]、[STOP]和[PAD]。
提供机构:
haydn-jones
原始信息汇总

数据集概述

特征信息

  • smiles: 数据类型为 large_string
  • zinc_id: 数据类型为 int64
  • SELFIES: 数据类型为 string

数据分割

  • train: 字节数为 393170565049,样本数为 1538340669
  • val: 字节数为 47753116448,样本数为 192292584
  • test: 字节数为 46114402425,样本数为 192292584

数据大小

  • 下载大小: 174349539018 字节
  • 数据集大小: 487038083922 字节

配置

  • config_name: default
    • data_files:
      • train: data/train-*
      • val: data/val-*
      • test: data/test-*

许可证

  • license: MIT

标签

  • tags:
    • chemistry
    • biology
    • medical

大小分类

  • size_categories:
    • 1B<n<10B
搜集汇总
数据集介绍
main_image_url
构建方式
haydn-jones/ZINC20数据集的构建,旨在整合化学领域内的分子信息。该数据集通过从ZINC20数据库中下载完整数据,随后对SMILES表示的分子结构进行SELFIES编码转换,去除转换失败的记录,最终形成包含SMILES和SELFIES两种表示形式的数据集。数据在经过完全随机打乱后,被划分为训练集、验证集和测试集,比例分别为80%、10%和10%,确保数据分布的均匀性和训练的有效性。
特点
本数据集的特点在于其规模宏大,包含超过十亿条分子记录,且具有两种分子表示形式,即可用于基于SMILES的模型,也可用于基于SELFIES的模型。其遵循MIT许可,开放给研究者和开发者使用。此外,数据集还提供了vocab.csv文件,包含数据中所有SELFIES编码的词汇,以及必要的[START]、[STOP]和[PAD]标记,便于模型处理。
使用方法
使用该数据集时,用户可根据自己的需要选择训练、验证或测试集中的数据。数据集以文件形式组织,可通过路径指定相应的数据分片进行加载。用户需首先确保拥有处理大型数据集的计算资源,并熟悉SELFIES编码和分子数据处理的相关技术。在模型训练前,应使用vocab.csv文件中的词汇表对数据进行预处理,确保模型能够正确解析SELFIES编码。
背景与挑战
背景概述
在化学信息学领域,分子表示学习是构建高效分子模型的关键。ZINC数据库作为有机化学分子信息的宝库,自2005年起便由Docking Group维护,为药物设计和分子建模等领域提供了丰富的数据资源。haydn-jones/ZINC20数据集,作为ZINC数据库的一个版本,由专业的科研团队精心打造,旨在为分子表示学习提供高质量的数据支撑。该数据集不仅包含了超过十亿条分子记录,还特别整合了SELFIES编码,丰富了分子的表达形式,对于推动相关领域的研究具有重要的科学价值。
当前挑战
尽管haydn-jones/ZINC20数据集为研究者提供了丰富的资源,但在使用过程中仍面临诸多挑战。首先,数据集构建过程中,对SMILES编码到SELFIES编码的转换要求严格,任何转换失败的记录均被剔除,这无疑增加了数据处理的复杂性。其次,数据集规模巨大,对计算资源和存储能力提出了较高要求。此外,如何在保证数据质量的同时,高效利用这些数据进行分子模型的训练和评估,也是当前领域内亟待解决的问题。
常用场景
经典使用场景
在化学信息学领域,haydn-jones/ZINC20数据集以其庞大的分子结构数据库而备受瞩目。该数据集提供了超过十亿的化学分子SMILES表示和对应的SELFIES编码,被广泛应用于分子性质预测、药物设计等研究中,成为了化学领域数据挖掘和机器学习任务中的经典资源。
解决学术问题
该数据集解决了化学研究中分子数据不足的问题,为学术界提供了丰富的实验材料。其严格的筛选和划分过程确保了数据的质量和可用性,极大地推动了分子建模、药物筛选等领域的学术研究进展,对提高药物研发效率和降低成本具有重要意义。
衍生相关工作
基于haydn-jones/ZINC20数据集,学术界衍生出了一系列相关研究工作。这些工作不仅涉及分子表示的学习方法,还包括利用该数据集进行分子性质预测、药物再定位等领域的探索,进一步拓展了数据集的应用范围,推动了化学信息学领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作