five

GRAMPA

收藏
arXiv2024-04-15 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2404.09738v1
下载链接
链接失效反馈
资源简介:
GRAMPA数据集是由吉林大学计算机科学与技术学院和教育部符号计算与知识工程重点实验室的研究团队开发的,用于研究抗菌肽中的活性悬崖现象。该数据集包含6760个独特的序列,每个序列都有其对应的最低抑制浓度(MIC)值,这些数据用于评估和预测抗菌肽的活性差异。数据集的创建旨在通过机器学习和深度学习算法,提高对抗菌肽活性悬崖的预测准确性,从而在药物设计和开发中发挥重要作用。

The GRAMPA dataset was developed by the research team from the College of Computer Science and Technology, Jilin University and the Key Laboratory of Symbolic Computation and Knowledge Engineering of the Ministry of Education of China, for research on the activity cliff phenomenon in antimicrobial peptides. This dataset comprises 6760 unique sequences, each paired with its corresponding minimum inhibitory concentration (MIC) value. These data are utilized to evaluate and predict the activity differences of antimicrobial peptides. The development of this dataset aims to improve the prediction accuracy of antimicrobial peptide activity cliffs via machine learning and deep learning algorithms, thereby playing an important role in drug design and development.
提供机构:
吉林大学计算机科学与技术学院,教育部符号计算与知识工程重点实验室
创建时间:
2024-04-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
GRAMPA数据集是通过收集公开的抗微生物肽(AMPs)数据集并对其进行预处理而构建的。首先,从公开数据集中收集了AMPs的序列和最小抑菌浓度(MIC)值。然后,为了去除可能影响AMPs活性的二硫键,移除了所有包含半胱氨酸的序列。最后,对于同一细菌的多个MIC测量值,取几何平均值作为最终值。通过这种方式,GRAMPA数据集为AMPCliff的研究提供了可靠的数据基础。
使用方法
GRAMPA数据集可用于AMPCliff的研究和模型训练。在使用数据集时,首先需要根据研究目的选择合适的序列长度范围。然后,根据AMPCliff的定义,计算序列对之间的BLOSUM62相似度分数和MIC值差异。最后,根据相似度分数和MIC值差异,将序列对分类为AMPCliff或非AMPCliff。GRAMPA数据集还可以用于评估不同模型在AMPCliff预测任务上的性能,通过比较模型在测试集上的召回率和Spearman相关系数来评估模型的预测能力。
背景与挑战
背景概述
活动悬崖(AC)是指一对相似的分子在结构上只有微小的改变,但在生化活性上却表现出巨大的差异。在抗菌肽(AMPs)领域,关于AC现象的研究相对较少。本研究介绍了一种名为AMPCliff的定量定义和基准测试框架,用于研究由标准氨基酸组成的AMPs中的AC现象。通过对现有AMP数据集的全面分析,揭示了AMPs中AC现象的显著普遍性。AMPCliff通过最小抑菌浓度(MIC)指标量化AMPs的活性,并将一对对齐肽之间的归一化BLOSUM62相似度分数阈值定义为0.9,以区分至少两倍MIC变化的肽对。本研究从公开可用的AMP数据集GRAMPA中建立了金黄色葡萄球菌的AMP配对基准数据集,并进行了严格的程序来评估各种AMP AC预测模型,包括九种机器学习、四种深度学习算法、四种掩码语言模型和四种生成式语言模型。分析表明,这些模型能够检测AMP AC事件,并且在评估中,预训练的蛋白质语言模型ESM2表现出优越的性能。尽管ESM2具有33层,但在基准数据集上的MIC值回归任务中,其斯皮尔曼相关系数仅为0.50,AMP活动悬崖的预测性能仍有待进一步提高。
当前挑战
AMPCliff数据集当前面临的挑战包括:1) 所解决的领域问题的挑战:AMPCliff旨在解决抗菌肽领域中活动悬崖现象的预测问题,但由于活动悬崖现象的复杂性,模型预测性能仍有待提高。2) 构建过程中所遇到的挑战:AMPCliff数据集的构建过程中,需要处理大量的数据,并选择合适的序列相似性度量方法。此外,数据集的划分和模型的选择也对预测性能有重要影响。
常用场景
经典使用场景
在抗菌肽的定量定义和基准测试框架AMPCliff中,GRAMPA数据集被用作基准数据集,以评估各种AMP AC预测模型。这些模型包括机器学习、深度学习算法、掩码语言模型和生成式语言模型。通过在GRAMPA数据集上对模型进行评估,研究揭示了这些模型能够检测AMP AC事件,并且预训练的蛋白质语言模型ESM2在评估中表现出优异的性能。
解决学术问题
GRAMPA数据集解决了抗菌肽中活动断崖现象的研究问题。活动断崖现象是指一对相似分子通过小结构改变却表现出生物化学活性上的巨大差异。该数据集的建立和研究有助于深入理解抗菌肽的活动断崖现象,为抗菌肽的设计和优化提供重要的参考。
实际应用
GRAMPA数据集的实际应用场景包括抗菌肽的设计和优化。通过研究活动断崖现象,可以更好地理解抗菌肽的结构与功能之间的关系,从而指导抗菌肽的设计和优化。此外,该数据集还可以用于开发抗菌肽活性预测模型,为抗菌肽的研究和应用提供支持。
数据集最近研究
最新研究方向
在抗菌肽(AMPs)领域中,活动悬崖(AC)现象的研究已逐渐成为热点。AMPCliff数据集为这一现象提供了量化的定义和基准测试框架,揭示了AMPs中AC现象的普遍存在。AMPCliff通过最小抑菌浓度(MIC)来量化AMPs的活动,并定义了0.9作为成对序列之间归一化BLOSUM62相似度得分的最小阈值,以便于检测至少两倍MIC变化。该研究从公开可用的AMP数据集GRAMPA中建立了配对的AMPs基准数据集,并对多种AMP AC预测模型进行了严格评估,包括机器学习、深度学习算法、掩码语言模型和生成语言模型。分析表明,这些模型能够检测AMP AC事件,其中预训练的蛋白质语言模型ESM2在评估中表现出优异性能。然而,AMP活动悬崖的预测性能仍有待进一步提高。
相关研究论文
  • 1
    AMPCliff: quantitative definition and benchmarking of activity cliffs in antimicrobial peptides吉林大学计算机科学与技术学院,教育部符号计算与知识工程重点实验室 · 2024年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作