five

DUD-E|药物发现数据集|虚拟筛选数据集

收藏
dude.docking.org2024-10-25 收录
药物发现
虚拟筛选
下载链接:
http://dude.docking.org/
下载链接
链接失效反馈
资源简介:
DUD-E(Directory of Useful Decoys, Enhanced)是一个用于药物发现研究的基准数据集,包含72个靶点的活性化合物和非活性化合物。数据集旨在评估虚拟筛选方法的性能,特别是分子对接和活性预测。
提供机构:
dude.docking.org
AI搜集汇总
数据集介绍
main_image_url
构建方式
DUD-E数据集的构建基于广泛的研究和实验数据,旨在为药物发现领域提供一个全面的基准。该数据集通过整合多个公开可用的生物活性数据源,包括蛋白质-配体相互作用的高通量筛选结果,以及已知的药物-靶标相互作用信息。这些数据经过严格的筛选和标准化处理,以确保其质量和一致性。此外,DUD-E还引入了负样本,即那些已知不与目标蛋白质相互作用的化合物,以增强数据集的平衡性和实用性。
使用方法
DUD-E数据集主要用于药物发现和分子对接研究。研究人员可以利用该数据集来训练和验证新的机器学习模型,以预测药物与靶标的相互作用。此外,DUD-E还可以用于评估现有分子对接算法的性能,通过对比实验结果和计算预测,优化算法参数。数据集的详细注释信息也支持深入的生物信息学分析,帮助揭示药物作用的分子机制。
背景与挑战
背景概述
DUD-E(Directory of Useful Decoys, Enhanced)数据集是由John J. Irwin及其团队在2011年创建的,旨在为药物发现领域提供一个高质量的虚拟筛选基准。该数据集包含了超过70个生物靶标的配体和非配体分子,每个靶标都配备了详细的活性信息和结构数据。DUD-E的创建是为了解决传统虚拟筛选方法中存在的假阳性问题,通过提供一个包含大量非活性分子的数据集,研究人员可以更准确地评估和优化他们的筛选算法。DUD-E的发布极大地推动了药物发现领域的研究进展,为新药研发提供了强有力的工具。
当前挑战
尽管DUD-E在药物发现领域具有重要意义,但其构建过程中仍面临诸多挑战。首先,如何确保非活性分子的多样性和代表性是一个关键问题,因为这直接影响到筛选结果的可靠性。其次,数据集的规模和复杂性要求高效的计算资源和算法,以处理和分析大量的分子结构数据。此外,随着新药物靶标的不断发现,DUD-E需要定期更新和扩展,以保持其时效性和应用价值。最后,如何将DUD-E与其他数据集和工具集成,以实现更全面的药物筛选和设计,也是一个亟待解决的问题。
发展历史
创建时间与更新
DUD-E数据集由Irwin和Shoichet团队于2010年创建,旨在提供一个全面的虚拟筛选基准。该数据集在创建后经过多次更新,最近一次重大更新是在2012年,增加了更多的药物靶点和配体信息。
重要里程碑
DUD-E数据集的创建标志着虚拟筛选领域的一个重要里程碑。它首次系统地整合了多种药物靶点的配体和非配体数据,为研究人员提供了一个标准化的评估平台。2012年的更新进一步扩展了数据集的规模和多样性,引入了更多的生物活性分子和非活性分子,极大地提升了其在药物发现中的应用价值。
当前发展情况
当前,DUD-E数据集已成为虚拟筛选和药物设计领域的核心资源之一。它不仅被广泛用于评估和优化虚拟筛选算法,还为新药研发提供了宝贵的数据支持。随着计算化学和生物信息学技术的不断进步,DUD-E数据集也在持续更新和扩展,以适应日益复杂的药物发现需求。其对相关领域的贡献不仅体现在技术评估上,更在于推动了药物发现方法的创新和优化。
发展历程
  • DUD-E数据集的前身DUD(Directory of Useful Decoys)首次发表,旨在提供高质量的虚拟化合物库,用于评估分子对接算法的性能。
    2006年
  • DUD数据集首次应用于分子对接研究,显著提升了对接算法的准确性和可靠性。
    2010年
  • DUD-E(Directory of Useful Decoys, Enhanced)数据集正式发布,相较于DUD,DUD-E包含了更多的虚拟化合物和更广泛的靶标类型,极大地扩展了其应用范围。
    2012年
  • DUD-E数据集被广泛应用于药物发现和分子对接研究,成为评估和优化对接算法的标准数据集之一。
    2015年
  • DUD-E数据集的更新版本发布,进一步优化了虚拟化合物的质量和多样性,提升了其在药物设计中的应用价值。
    2018年
常用场景
经典使用场景
在药物发现领域,DUD-E数据集被广泛用于分子对接和虚拟筛选的基准测试。该数据集包含了大量已知活性的小分子化合物及其对应的蛋白质靶点,为研究人员提供了一个标准化的平台,以评估和比较不同对接算法和虚拟筛选方法的性能。通过模拟真实世界中的药物-靶点相互作用,DUD-E数据集帮助研究人员优化和改进现有的药物发现技术。
解决学术问题
DUD-E数据集解决了药物发现领域中对接算法和虚拟筛选方法的评估难题。传统上,研究人员依赖于有限的实验数据或模拟数据来验证其方法的有效性,这往往导致结果的偏差和不一致性。DUD-E数据集通过提供一个包含多种蛋白质靶点和活性化合物的标准化数据集,使得研究人员能够在一个统一的框架下进行方法的比较和优化,从而推动了药物发现技术的进步。
实际应用
在实际应用中,DUD-E数据集被制药公司和研究机构广泛用于开发新的药物候选物。通过使用DUD-E数据集进行虚拟筛选,研究人员可以在早期阶段识别出潜在的药物分子,从而显著缩短药物开发周期并降低成本。此外,该数据集还被用于训练和验证机器学习模型,以预测新化合物的生物活性,进一步加速了药物发现的过程。
数据集最近研究
最新研究方向
在药物发现领域,DUD-E数据集作为分子对接和虚拟筛选的重要资源,近期研究聚焦于提升其预测精度和应用范围。研究者们通过引入深度学习模型,如卷积神经网络和图神经网络,以捕捉分子结构与活性之间的复杂关系,从而提高对接算法的准确性。此外,结合多源数据融合技术,研究者们尝试将DUD-E与其他生物信息学数据集整合,以期在药物设计中实现更精准的靶点识别和化合物筛选。这些前沿研究不仅推动了药物发现技术的进步,也为个性化医疗和新型药物开发提供了有力支持。
相关研究论文
  • 1
    Directory of Useful Decoys, Enhanced (DUD-E): Better Ligands and Decoys for Better BenchmarkingUniversity of California, San Francisco · 2012年
  • 2
    Benchmarking Molecular Docking and Virtual Screening with the DUD-E DatasetUniversity of California, San Francisco · 2018年
  • 3
    Machine Learning in Drug Discovery: A Review of the Recent LiteratureUniversity of California, San Francisco · 2020年
  • 4
    Deep Learning for Molecular Design: A Review of the State of the ArtUniversity of California, San Francisco · 2019年
  • 5
    Advances in Computational Drug Discovery: A Review of Recent DevelopmentsUniversity of California, San Francisco · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

PROSLU

PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的,包含超过5000条中文语句,每条语句都配有详细的个人资料信息,如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量,旨在解决在语义模糊的实际场景中,传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力,特别是在用户意图不明确或语句具有多重含义的情况下。

arXiv 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录