five

ZINC|化学信息数据集|药物发现数据集

收藏
OpenDataLab2025-03-29 更新2024-05-09 收录
化学信息
药物发现
下载链接:
https://opendatalab.org.cn/OpenScienceLab/ZINC
下载链接
链接失效反馈
资源简介:
ZINC 是用于虚拟筛选的商用化合物的免费数据库。 ZINC 包含超过 2.3 亿种可购买的即用型 3D 格式化合物。 ZINC 还包含超过 7.5 亿种可购买的化合物,可用于搜索类似物。
提供机构:
OpenScienceLab
创建时间:
2022-08-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
ZINC数据集的构建基于大规模的化学分子数据库,涵盖了超过250万个有机小分子。这些分子通过系统化的筛选和过滤,确保其化学结构和性质的多样性。构建过程中,采用了先进的化学信息学工具,对分子进行了详细的结构解析和属性计算,包括但不限于分子量、氢键供体和受体数量、可旋转键数等关键参数。此外,数据集还包含了分子的二维和三维结构表示,为分子模拟和药物设计提供了丰富的数据支持。
特点
ZINC数据集以其庞大的规模和多样性著称,为药物发现和化学研究提供了广泛的数据资源。其特点之一是包含了详细的分子属性信息,这些信息对于评估分子的生物活性和物理化学性质至关重要。此外,数据集中的分子结构以多种格式呈现,便于不同研究工具和平台的应用。ZINC数据集还定期更新,确保数据的时效性和准确性,使其成为化学和生物学领域研究的重要基石。
使用方法
ZINC数据集广泛应用于药物发现、化学合成和分子模拟等领域。研究人员可以通过访问ZINC数据库,筛选符合特定条件的分子,进行虚拟筛选和先导化合物优化。数据集的多样性使得其适用于各种研究需求,从基础的分子属性分析到复杂的药物设计。此外,ZINC数据集还支持与其他化学信息学工具的集成,如分子对接软件和机器学习算法,进一步提升了其在科学研究中的应用价值。
背景与挑战
背景概述
ZINC数据集,由美国国家卫生研究院(NIH)于2015年发布,旨在为药物发现领域提供一个大规模、高质量的化学分子库。该数据集包含了超过25万个小分子化合物的详细信息,包括其化学结构、物理化学性质以及生物活性数据。ZINC数据集的发布极大地推动了计算机辅助药物设计(CADD)的发展,使得研究人员能够更高效地筛选潜在的药物候选分子,从而加速新药的研发进程。
当前挑战
尽管ZINC数据集在药物发现领域具有重要意义,但其构建过程中也面临诸多挑战。首先,数据集的规模庞大,如何确保数据的准确性和一致性是一个巨大的挑战。其次,化学分子的多样性和复杂性使得数据的标准化和处理变得异常困难。此外,生物活性数据的获取和验证也是一个耗时且成本高昂的过程。这些挑战不仅影响了数据集的质量,也限制了其在实际应用中的效率和效果。
发展历史
创建时间与更新
ZINC数据集由John J. Irwin和Brian K. Shoichet于2005年创建,旨在为药物发现领域提供一个大规模的虚拟筛选库。该数据集定期更新,最近一次重大更新发生在2020年,以确保其内容的时效性和多样性。
重要里程碑
ZINC数据集的创建标志着虚拟筛选技术在药物发现中的重要突破。2005年,其首次发布即包含了超过13万个化合物,极大地扩展了研究者可用的化学空间。2012年,ZINC15的推出进一步提升了数据集的规模和质量,包含了超过1亿个化合物,成为全球最大的公共化合物库之一。这一里程碑事件不仅推动了药物发现的速度和效率,还促进了多学科交叉研究的发展。
当前发展情况
当前,ZINC数据集已成为药物发现和化学信息学领域的基石,支持了众多创新药物的研发。其持续的更新和扩展,确保了数据集在现代药物发现流程中的核心地位。ZINC不仅为学术界提供了丰富的资源,还通过与工业界的合作,推动了新药候选物的快速筛选和优化。此外,ZINC的开放获取政策促进了全球范围内的科研合作,为解决复杂疾病提供了新的可能性。
发展历程
  • ZINC数据集首次发表,由Irwin和Shoichet在Journal of Chemical Information and Modeling期刊上提出,旨在为虚拟筛选提供一个免费的、大规模的化合物库。
    2005年
  • ZINC数据集首次应用于药物发现领域,特别是在虚拟筛选和分子对接研究中,显著提高了筛选效率和成功率。
    2007年
  • ZINC数据集的规模扩展至超过13亿个化合物,成为当时全球最大的公开可用化合物库之一。
    2012年
  • ZINC数据集引入了新的子集,如ZINC15,专门用于高通量筛选和机器学习模型的训练,进一步推动了药物发现的前沿研究。
    2015年
  • ZINC数据集与多个国际研究机构合作,发布了多个特定领域的子集,如天然产物和药物类似物,丰富了数据集的应用范围。
    2019年
  • ZINC数据集的最新版本ZINC20发布,包含超过23亿个化合物,继续保持其在虚拟筛选和药物发现领域的领先地位。
    2021年
常用场景
经典使用场景
在药物发现领域,ZINC数据集被广泛用于虚拟筛选和分子设计。该数据集包含了超过2.3亿个有机小分子化合物的三维结构信息,为研究人员提供了一个丰富的资源库,用于探索潜在的药物候选分子。通过结合计算化学和机器学习技术,研究人员可以高效地筛选出具有特定生物活性的化合物,从而加速新药的研发进程。
衍生相关工作
ZINC数据集的广泛应用催生了众多相关研究工作。例如,基于ZINC数据集的分子指纹和描述符被用于开发新的机器学习模型,以预测化合物的生物活性和毒性。此外,ZINC数据集还促进了分子对接和分子动力学模拟技术的发展,使得研究人员能够更准确地模拟药物与靶标之间的相互作用。这些衍生工作不仅丰富了药物发现的方法学,还推动了计算化学和生物信息学领域的进步。
数据集最近研究
最新研究方向
在药物发现领域,ZINC数据集作为化合物库的重要组成部分,近期研究聚焦于利用深度学习技术进行药物筛选和设计。研究者们通过构建高精度的分子表示模型,探索化合物与靶点之间的相互作用,从而加速新药研发进程。此外,结合量子化学计算和分子动力学模拟,研究进一步提升了对化合物性质的预测能力,为个性化医疗和精准治疗提供了新的可能性。这些前沿研究不仅推动了药物发现技术的革新,也为解决全球健康挑战提供了有力支持。
相关研究论文
  • 1
    ZINC: A Free Database of Commercially Available Compounds for Virtual ScreeningUniversity of California, San Francisco · 2005年
  • 2
    Molecular Docking on ZINC Database: A Comparative Study of Different Docking ProgramsIndian Institute of Technology Madras · 2018年
  • 3
    Machine Learning in Drug Discovery: A Review of Recent Advances and Future ProspectsUniversity of California, San Diego · 2020年
  • 4
    Virtual Screening of ZINC Database for Potential Anticancer Agents Using Molecular DockingUniversity of Malaya · 2019年
  • 5
    Exploring the ZINC Database for Novel Inhibitors of Protein-Protein InteractionsUniversity of Cambridge · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

中国车牌识别数据集(7类,33万张)

这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区 收录