Pixelatory/ZINC20-Druglike
收藏Hugging Face2023-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Pixelatory/ZINC20-Druglike
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自ZINC-20数据库,包含经过RDKit规范化的唯一SMILES分子。数据集使用了ZINC-20的过滤标准,包括2D表示、标准反应、可购买性注释和药物类似子集。此外,数据集还提供了序列长度分布和最常见的15个SMILES标记及其频率的图表。
该数据集来自ZINC-20数据库,包含经过RDKit规范化的唯一SMILES分子。数据集使用了ZINC-20的过滤标准,包括2D表示、标准反应、可购买性注释和药物类似子集。此外,数据集还提供了序列长度分布和最常见的15个SMILES标记及其频率的图表。
提供机构:
Pixelatory
原始信息汇总
数据集概述
标签
- 化学
数据集大小
- 1B < n < 10B
配置
- 配置名称: default
- 数据文件: zinc-druglike-cano.tar.xz
数据来源
- 下载日期: 2023年11月25日
- 来源: ZINC-20 (https://zinc20.docking.org/)
数据内容
- 包含唯一规范化(canonicalized)的SMILES分子,使用RDKit处理。
过滤标准
- 2D表示
- 标准反应
- 可购买性标注
- 药物类似物子集
SMILES序列长度分布
- 提供了tokenized SMILES序列长度的分布图。
顶级SMILES令牌
- 提供了前15个SMILES令牌及其频率的图表。
SMILES令牌化正则表达式
- 使用以下正则表达式将SMILES分子拆分为令牌: ([[^]]+]|Br?|Cl?|N|O|S|P|F|I|b|c|n|o|s|p|(|)|.|=|#|-|+||/|:|~|@|?|>>?|*|$|%[0-9]{2}|[0-9])
搜集汇总
数据集介绍

构建方式
在化学领域研究中,Pixelatory/ZINC20-Druglike数据集的构建是基于ZINC-20数据库的独特规则筛选。该数据集包含经过RDKit工具进行规范化的SMILES(简化分子输入线性表达式)分子,通过2D表示、标准反应、标注购买性以及药物相似性子集等筛选标准,从而确保了数据集中的分子具有潜在的药物活性特征。
特点
此数据集的特点在于其收录的是经过规范化的、具有药物相似性的分子结构,这些分子结构通过SMILES语言进行编码,具有良好的唯一性和标准化特性。数据集规模庞大,介于十亿到百亿之间,且提供了序列长度分布及高频SMILES符号的统计信息,便于用户对数据集的构成有直观的认识。
使用方法
用户可通过下载提供的tar.xz压缩文件来获取数据集,其中包含了数据集的完整信息。解压后,用户可以基于RDKit等化学信息学工具进一步处理和分析SMILES序列,开展药物设计与筛选、机器学习模型训练等研究工作。同时,数据集的README文件中提供的统计图表,有助于用户快速理解数据集的基本特征,从而更高效地进行相关研究。
背景与挑战
背景概述
Pixelatory/ZINC20-Druglike数据集,诞生于化学领域的研究需求,由ZINC数据库提供,旨在为药物设计与发现领域提供高质量的分子数据。该数据集于2023年11月25日下载,包含经过RDKit工具处理的唯一标准化SMILES(Simplified Molecular Input Line Entry System)分子表示,其筛选标准严格限定于2D表示、标准反应、标注购买性以及药物相似性子集,为科研人员提供了一个精确且实用的研究工具,对药物化学和计算机辅助药物设计领域产生了深远影响。
当前挑战
该数据集在构建过程中所面临的挑战主要包括:确保分子结构的准确性与标准化,处理大量数据时保持高效的数据处理速度,以及在筛选药物相似性子集时对药物属性的深入理解与精确界定。在研究领域问题解决方面,该数据集面临的挑战是如何有效地支持药物分子的虚拟筛选,以及如何提高基于SMILES表示的分子特征在药物活性预测中的准确性和可靠性。
常用场景
经典使用场景
在化学信息学领域,Pixelatory/ZINC20-Druglike数据集被广泛用于药物分子的研究与分析。该数据集以其独特的标准化分子结构,为科研人员提供了一种高效探索药物相似性的手段。经典的使用场景包括对药物分子的SMILES(Simplified Molecular Input Line Entry System)编码进行解析,进而对分子的结构特征进行深入分析。
解决学术问题
该数据集解决了在药物设计与发现过程中,如何快速准确地从大量分子中筛选出具有药物性质的分子的问题。它为学术界提供了一种可靠的数据资源,帮助科研人员缩小研究范围,聚焦于具有潜在药物活性的分子,从而加速新药的发现进程。
衍生相关工作
基于该数据集,衍生出了一系列相关研究工作,包括药物分子的机器学习模型训练、药物相似性分析算法的开发以及药物-靶标相互作用预测等。这些工作进一步拓展了数据集的应用范围,为药物信息学和计算生物学领域的研究提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成



