Pixelatory/ZINC20-Druglike

Name: Pixelatory/ZINC20-Druglike
Creator: Pixelatory
Published: 2023-12-06 04:00:57
License: 暂无描述

Hugging Face2023-12-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Pixelatory/ZINC20-Druglike

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自ZINC-20数据库，包含经过RDKit规范化的唯一SMILES分子。数据集使用了ZINC-20的过滤标准，包括2D表示、标准反应、可购买性注释和药物类似子集。此外，数据集还提供了序列长度分布和最常见的15个SMILES标记及其频率的图表。

提供机构：

Pixelatory

原始信息汇总

数据集概述

数据集大小

1B < n < 10B

配置

配置名称: default
数据文件: zinc-druglike-cano.tar.xz

数据来源

下载日期: 2023年11月25日
来源: ZINC-20 (https://zinc20.docking.org/)

数据内容

包含唯一规范化（canonicalized）的SMILES分子，使用RDKit处理。

过滤标准

2D表示
标准反应
可购买性标注
药物类似物子集

SMILES序列长度分布

提供了tokenized SMILES序列长度的分布图。

顶级SMILES令牌

提供了前15个SMILES令牌及其频率的图表。

SMILES令牌化正则表达式

使用以下正则表达式将SMILES分子拆分为令牌： ([[^]]+]|Br?|Cl?|N|O|S|P|F|I|b|c|n|o|s|p|(|)|.|=|#|-|+||/|:|~|@|?|>>?|*|$|%[0-9]{2}|[0-9])

搜集汇总

数据集介绍

构建方式

在化学领域研究中，Pixelatory/ZINC20-Druglike数据集的构建是基于ZINC-20数据库的独特规则筛选。该数据集包含经过RDKit工具进行规范化的SMILES（简化分子输入线性表达式）分子，通过2D表示、标准反应、标注购买性以及药物相似性子集等筛选标准，从而确保了数据集中的分子具有潜在的药物活性特征。

特点

此数据集的特点在于其收录的是经过规范化的、具有药物相似性的分子结构，这些分子结构通过SMILES语言进行编码，具有良好的唯一性和标准化特性。数据集规模庞大，介于十亿到百亿之间，且提供了序列长度分布及高频SMILES符号的统计信息，便于用户对数据集的构成有直观的认识。

使用方法

用户可通过下载提供的tar.xz压缩文件来获取数据集，其中包含了数据集的完整信息。解压后，用户可以基于RDKit等化学信息学工具进一步处理和分析SMILES序列，开展药物设计与筛选、机器学习模型训练等研究工作。同时，数据集的README文件中提供的统计图表，有助于用户快速理解数据集的基本特征，从而更高效地进行相关研究。

背景与挑战

背景概述

Pixelatory/ZINC20-Druglike数据集，诞生于化学领域的研究需求，由ZINC数据库提供，旨在为药物设计与发现领域提供高质量的分子数据。该数据集于2023年11月25日下载，包含经过RDKit工具处理的唯一标准化SMILES（Simplified Molecular Input Line Entry System）分子表示，其筛选标准严格限定于2D表示、标准反应、标注购买性以及药物相似性子集，为科研人员提供了一个精确且实用的研究工具，对药物化学和计算机辅助药物设计领域产生了深远影响。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：确保分子结构的准确性与标准化，处理大量数据时保持高效的数据处理速度，以及在筛选药物相似性子集时对药物属性的深入理解与精确界定。在研究领域问题解决方面，该数据集面临的挑战是如何有效地支持药物分子的虚拟筛选，以及如何提高基于SMILES表示的分子特征在药物活性预测中的准确性和可靠性。

常用场景

经典使用场景

在化学信息学领域，Pixelatory/ZINC20-Druglike数据集被广泛用于药物分子的研究与分析。该数据集以其独特的标准化分子结构，为科研人员提供了一种高效探索药物相似性的手段。经典的使用场景包括对药物分子的SMILES（Simplified Molecular Input Line Entry System）编码进行解析，进而对分子的结构特征进行深入分析。

解决学术问题

该数据集解决了在药物设计与发现过程中，如何快速准确地从大量分子中筛选出具有药物性质的分子的问题。它为学术界提供了一种可靠的数据资源，帮助科研人员缩小研究范围，聚焦于具有潜在药物活性的分子，从而加速新药的发现进程。

衍生相关工作

基于该数据集，衍生出了一系列相关研究工作，包括药物分子的机器学习模型训练、药物相似性分析算法的开发以及药物-靶标相互作用预测等。这些工作进一步拓展了数据集的应用范围，为药物信息学和计算生物学领域的研究提供了新的视角和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集