anti-SARS-CoV-2 benchmark dataset

github2022-11-30 更新2024-05-31 收录

下载链接：

https://github.com/daishaoxing/anti-SARS-CoV-2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从ChEMBL数据库收集的抗SARS-CoV-2生物活性数据构建的基准数据集，用于通过机器学习方法预测抗SARS-CoV-2活性，以发现新的抗SARS-CoV-2化合物和药用植物。

This dataset is a benchmark dataset constructed from anti-SARS-CoV-2 bioactivity data collected from the ChEMBL database. It is designed for predicting anti-SARS-CoV-2 activity through machine learning methods, aiming to discover new anti-SARS-CoV-2 compounds and medicinal plants.

创建时间：

2022-11-30

原始信息汇总

数据集概述

数据集名称

anti-SARS-CoV-2

数据集目的

用于研究“通过化学信息学和机器学习在硅中识别抗SARS-CoV-2药用植物”，旨在从传统中药中识别新的抗SARS-CoV-2化合物和药用植物。

数据集内容

构建了一个基准数据集，数据来源于ChEMBL数据库中的抗SARS-CoV-2生物活性数据。
通过随机森林（RF）和支持向量机（SVM）模型预测了1013个活性抗SARS-CoV-2化合物。
通过富集分析，识别了74种具有潜在抗SARS-CoV-2活性的药用植物，这些植物分布在68个属和43个科中。

数据集应用

使用Python开发的程序，利用Pybel处理化合物并生成分子指纹，使用scikit-learn训练和生成抗SARS-CoV-2化合物预测器。
用户可以通过特定的命令配置环境并运行预测脚本。

数据集结果

确认了六种具有高度活性的化合物在抗SARS-CoV-2实验中。
分子指纹相似性分析显示，1013种化合物中只有24种与FDA批准的抗病毒药物具有高相似性，表明大多数化合物结构新颖。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于ChEMBL数据库中的抗SARS-CoV-2生物活性数据，通过机器学习方法筛选出具有潜在抗病毒活性的化合物。研究团队首先从ChEMBL数据库中收集了相关数据，并利用随机森林（RF）和支持向量机（SVM）模型进行预测，模型的AUC值达到0.90，表现出较高的预测性能。随后，从TCMSP数据库中预测出1013个具有抗SARS-CoV-2活性的化合物，并通过实验验证了其中6个化合物的高效活性。

特点

该数据集的特点在于其专注于从传统中药（TCM）中挖掘具有抗SARS-CoV-2活性的化合物和药用植物。通过分子指纹相似性分析，发现大多数预测的化合物与FDA批准的抗病毒药物结构差异较大，表明这些化合物具有新颖的结构特征。此外，通过富集分析，研究团队还识别出74种具有潜在抗SARS-CoV-2活性的药用植物，这些植物广泛分布于68个属和43个科中，为抗病毒药物的开发提供了丰富的资源。

使用方法

该数据集的使用方法主要依赖于Python编程环境。用户需安装scikit-learn和Openbabel等工具包，以支持化合物的处理和分子指纹的生成。通过运行提供的预测脚本，用户可以对输入的化合物进行抗SARS-CoV-2活性预测，并将结果输出到指定文件中。具体命令为：`python step5_pre_anti-SARS-CoV-2_compound.py ../data/test.smi ../data/test_prediction_result.txt`。该方法为研究人员提供了一种高效的工具，用于从大规模化合物库中筛选潜在的抗病毒药物。

背景与挑战

背景概述

在COVID-19大流行的背景下，全球范围内对有效治疗药物的需求日益迫切。anti-SARS-CoV-2 benchmark数据集应运而生，旨在通过计算机辅助药物设计和机器学习方法，从中药中识别出具有抗SARS-CoV-2活性的化合物和药用植物。该数据集由ChEMBL数据库中的生物活性数据构建而成，主要研究人员利用随机森林（RF）和支持向量机（SVM）模型，成功预测了1013种具有潜在抗病毒活性的化合物，并从中确认了六种高活性化合物。这一研究不仅为COVID-19的治疗提供了新的药物候选，还展示了中药在抗病毒药物开发中的巨大潜力。

当前挑战

anti-SARS-CoV-2 benchmark数据集的构建和应用面临多重挑战。首先，从海量化合物中筛选出具有抗病毒活性的分子需要高效的预测模型，而模型的准确性和泛化能力直接影响筛选结果的有效性。其次，中药化合物的结构多样性和复杂性增加了分子指纹生成和相似性分析的难度，尤其是在与已知抗病毒药物进行结构比对时，如何识别出新颖且有效的化合物成为一大挑战。此外，实验验证环节的耗时和高成本也对数据集的进一步扩展和应用提出了更高的要求。

常用场景

经典使用场景

在COVID-19疫情全球蔓延的背景下，anti-SARS-CoV-2 benchmark dataset被广泛应用于药物发现领域，特别是通过机器学习和化学信息学方法筛选具有抗SARS-CoV-2活性的化合物。该数据集通过整合ChEMBL数据库中的生物活性数据，构建了一个基准数据集，用于训练和验证随机森林（RF）和支持向量机（SVM）模型，从而预测中药化合物库中的潜在抗病毒药物。

解决学术问题

该数据集解决了COVID-19治疗中缺乏特异性药物的问题，通过机器学习模型筛选出1013种具有潜在抗SARS-CoV-2活性的化合物，并从中验证了6种高效活性化合物。这一研究不仅为抗病毒药物开发提供了新的候选分子，还揭示了中药化合物在抗病毒治疗中的潜在价值，推动了传统药物与现代计算方法的结合。

衍生相关工作

基于anti-SARS-CoV-2 benchmark dataset的研究成果，衍生了一系列相关经典工作，包括进一步优化机器学习模型以提高预测精度、扩展化合物库的筛选范围以及探索中药化合物与其他病毒之间的相互作用。这些工作不仅丰富了抗病毒药物研究的理论体系，还为全球公共卫生安全提供了新的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集