five

Pixelatory/ZINC20-Druglike

收藏
Hugging Face2023-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Pixelatory/ZINC20-Druglike
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自ZINC-20数据库,包含经过RDKit规范化的唯一SMILES分子。数据集使用了ZINC-20的过滤标准,包括2D表示、标准反应、可购买性注释和药物类似子集。此外,数据集还提供了序列长度分布和最常见的15个SMILES标记及其频率的图表。

该数据集来自ZINC-20数据库,包含经过RDKit规范化的唯一SMILES分子。数据集使用了ZINC-20的过滤标准,包括2D表示、标准反应、可购买性注释和药物类似子集。此外,数据集还提供了序列长度分布和最常见的15个SMILES标记及其频率的图表。
提供机构:
Pixelatory
原始信息汇总

数据集概述

标签

  • 化学

数据集大小

  • 1B < n < 10B

配置

  • 配置名称: default
  • 数据文件: zinc-druglike-cano.tar.xz

数据来源

  • 下载日期: 2023年11月25日
  • 来源: ZINC-20 (https://zinc20.docking.org/)

数据内容

  • 包含唯一规范化(canonicalized)的SMILES分子,使用RDKit处理。

过滤标准

  • 2D表示
  • 标准反应
  • 可购买性标注
  • 药物类似物子集

SMILES序列长度分布

  • 提供了tokenized SMILES序列长度的分布图。

顶级SMILES令牌

  • 提供了前15个SMILES令牌及其频率的图表。

SMILES令牌化正则表达式

  • 使用以下正则表达式将SMILES分子拆分为令牌: ([[^]]+]|Br?|Cl?|N|O|S|P|F|I|b|c|n|o|s|p|(|)|.|=|#|-|+||/|:|~|@|?|>>?|*|$|%[0-9]{2}|[0-9])
搜集汇总
数据集介绍
main_image_url
构建方式
在化学领域研究中,Pixelatory/ZINC20-Druglike数据集的构建是基于ZINC-20数据库的独特规则筛选。该数据集包含经过RDKit工具进行规范化的SMILES(简化分子输入线性表达式)分子,通过2D表示、标准反应、标注购买性以及药物相似性子集等筛选标准,从而确保了数据集中的分子具有潜在的药物活性特征。
特点
此数据集的特点在于其收录的是经过规范化的、具有药物相似性的分子结构,这些分子结构通过SMILES语言进行编码,具有良好的唯一性和标准化特性。数据集规模庞大,介于十亿到百亿之间,且提供了序列长度分布及高频SMILES符号的统计信息,便于用户对数据集的构成有直观的认识。
使用方法
用户可通过下载提供的tar.xz压缩文件来获取数据集,其中包含了数据集的完整信息。解压后,用户可以基于RDKit等化学信息学工具进一步处理和分析SMILES序列,开展药物设计与筛选、机器学习模型训练等研究工作。同时,数据集的README文件中提供的统计图表,有助于用户快速理解数据集的基本特征,从而更高效地进行相关研究。
背景与挑战
背景概述
Pixelatory/ZINC20-Druglike数据集,诞生于化学领域的研究需求,由ZINC数据库提供,旨在为药物设计与发现领域提供高质量的分子数据。该数据集于2023年11月25日下载,包含经过RDKit工具处理的唯一标准化SMILES(Simplified Molecular Input Line Entry System)分子表示,其筛选标准严格限定于2D表示、标准反应、标注购买性以及药物相似性子集,为科研人员提供了一个精确且实用的研究工具,对药物化学和计算机辅助药物设计领域产生了深远影响。
当前挑战
该数据集在构建过程中所面临的挑战主要包括:确保分子结构的准确性与标准化,处理大量数据时保持高效的数据处理速度,以及在筛选药物相似性子集时对药物属性的深入理解与精确界定。在研究领域问题解决方面,该数据集面临的挑战是如何有效地支持药物分子的虚拟筛选,以及如何提高基于SMILES表示的分子特征在药物活性预测中的准确性和可靠性。
常用场景
经典使用场景
在化学信息学领域,Pixelatory/ZINC20-Druglike数据集被广泛用于药物分子的研究与分析。该数据集以其独特的标准化分子结构,为科研人员提供了一种高效探索药物相似性的手段。经典的使用场景包括对药物分子的SMILES(Simplified Molecular Input Line Entry System)编码进行解析,进而对分子的结构特征进行深入分析。
解决学术问题
该数据集解决了在药物设计与发现过程中,如何快速准确地从大量分子中筛选出具有药物性质的分子的问题。它为学术界提供了一种可靠的数据资源,帮助科研人员缩小研究范围,聚焦于具有潜在药物活性的分子,从而加速新药的发现进程。
衍生相关工作
基于该数据集,衍生出了一系列相关研究工作,包括药物分子的机器学习模型训练、药物相似性分析算法的开发以及药物-靶标相互作用预测等。这些工作进一步拓展了数据集的应用范围,为药物信息学和计算生物学领域的研究提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作