five

GRAMPA|抗菌肽数据集|机器学习数据集

收藏
arXiv2024-04-15 更新2024-08-06 收录
抗菌肽
机器学习
下载链接:
http://arxiv.org/abs/2404.09738v1
下载链接
链接失效反馈
资源简介:
GRAMPA数据集是由吉林大学计算机科学与技术学院和教育部符号计算与知识工程重点实验室的研究团队开发的,用于研究抗菌肽中的活性悬崖现象。该数据集包含6760个独特的序列,每个序列都有其对应的最低抑制浓度(MIC)值,这些数据用于评估和预测抗菌肽的活性差异。数据集的创建旨在通过机器学习和深度学习算法,提高对抗菌肽活性悬崖的预测准确性,从而在药物设计和开发中发挥重要作用。
提供机构:
吉林大学计算机科学与技术学院,教育部符号计算与知识工程重点实验室
创建时间:
2024-04-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
GRAMPA数据集是通过收集公开的抗微生物肽(AMPs)数据集并对其进行预处理而构建的。首先,从公开数据集中收集了AMPs的序列和最小抑菌浓度(MIC)值。然后,为了去除可能影响AMPs活性的二硫键,移除了所有包含半胱氨酸的序列。最后,对于同一细菌的多个MIC测量值,取几何平均值作为最终值。通过这种方式,GRAMPA数据集为AMPCliff的研究提供了可靠的数据基础。
使用方法
GRAMPA数据集可用于AMPCliff的研究和模型训练。在使用数据集时,首先需要根据研究目的选择合适的序列长度范围。然后,根据AMPCliff的定义,计算序列对之间的BLOSUM62相似度分数和MIC值差异。最后,根据相似度分数和MIC值差异,将序列对分类为AMPCliff或非AMPCliff。GRAMPA数据集还可以用于评估不同模型在AMPCliff预测任务上的性能,通过比较模型在测试集上的召回率和Spearman相关系数来评估模型的预测能力。
背景与挑战
背景概述
活动悬崖(AC)是指一对相似的分子在结构上只有微小的改变,但在生化活性上却表现出巨大的差异。在抗菌肽(AMPs)领域,关于AC现象的研究相对较少。本研究介绍了一种名为AMPCliff的定量定义和基准测试框架,用于研究由标准氨基酸组成的AMPs中的AC现象。通过对现有AMP数据集的全面分析,揭示了AMPs中AC现象的显著普遍性。AMPCliff通过最小抑菌浓度(MIC)指标量化AMPs的活性,并将一对对齐肽之间的归一化BLOSUM62相似度分数阈值定义为0.9,以区分至少两倍MIC变化的肽对。本研究从公开可用的AMP数据集GRAMPA中建立了金黄色葡萄球菌的AMP配对基准数据集,并进行了严格的程序来评估各种AMP AC预测模型,包括九种机器学习、四种深度学习算法、四种掩码语言模型和四种生成式语言模型。分析表明,这些模型能够检测AMP AC事件,并且在评估中,预训练的蛋白质语言模型ESM2表现出优越的性能。尽管ESM2具有33层,但在基准数据集上的MIC值回归任务中,其斯皮尔曼相关系数仅为0.50,AMP活动悬崖的预测性能仍有待进一步提高。
当前挑战
AMPCliff数据集当前面临的挑战包括:1) 所解决的领域问题的挑战:AMPCliff旨在解决抗菌肽领域中活动悬崖现象的预测问题,但由于活动悬崖现象的复杂性,模型预测性能仍有待提高。2) 构建过程中所遇到的挑战:AMPCliff数据集的构建过程中,需要处理大量的数据,并选择合适的序列相似性度量方法。此外,数据集的划分和模型的选择也对预测性能有重要影响。
常用场景
经典使用场景
在抗菌肽的定量定义和基准测试框架AMPCliff中,GRAMPA数据集被用作基准数据集,以评估各种AMP AC预测模型。这些模型包括机器学习、深度学习算法、掩码语言模型和生成式语言模型。通过在GRAMPA数据集上对模型进行评估,研究揭示了这些模型能够检测AMP AC事件,并且预训练的蛋白质语言模型ESM2在评估中表现出优异的性能。
解决学术问题
GRAMPA数据集解决了抗菌肽中活动断崖现象的研究问题。活动断崖现象是指一对相似分子通过小结构改变却表现出生物化学活性上的巨大差异。该数据集的建立和研究有助于深入理解抗菌肽的活动断崖现象,为抗菌肽的设计和优化提供重要的参考。
实际应用
GRAMPA数据集的实际应用场景包括抗菌肽的设计和优化。通过研究活动断崖现象,可以更好地理解抗菌肽的结构与功能之间的关系,从而指导抗菌肽的设计和优化。此外,该数据集还可以用于开发抗菌肽活性预测模型,为抗菌肽的研究和应用提供支持。
数据集最近研究
最新研究方向
在抗菌肽(AMPs)领域中,活动悬崖(AC)现象的研究已逐渐成为热点。AMPCliff数据集为这一现象提供了量化的定义和基准测试框架,揭示了AMPs中AC现象的普遍存在。AMPCliff通过最小抑菌浓度(MIC)来量化AMPs的活动,并定义了0.9作为成对序列之间归一化BLOSUM62相似度得分的最小阈值,以便于检测至少两倍MIC变化。该研究从公开可用的AMP数据集GRAMPA中建立了配对的AMPs基准数据集,并对多种AMP AC预测模型进行了严格评估,包括机器学习、深度学习算法、掩码语言模型和生成语言模型。分析表明,这些模型能够检测AMP AC事件,其中预训练的蛋白质语言模型ESM2在评估中表现出优异性能。然而,AMP活动悬崖的预测性能仍有待进一步提高。
相关研究论文
  • 1
    AMPCliff: quantitative definition and benchmarking of activity cliffs in antimicrobial peptides吉林大学计算机科学与技术学院,教育部符号计算与知识工程重点实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

BatteRaquette58/airbnb-stock-price

Airbnb股票价格数据集,包含746行数据,详细记录了Airbnb股票的开盘价、收盘价、交易量、最高价和最低价。数据集适用于强化学习任务,主要关注金融领域。

hugging_face 收录

Cifar-100

Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。

www.cs.toronto.edu 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录