five

Applm

收藏
arXiv2025-08-14 更新2025-11-28 收录
下载链接:
https://github.com/brianwongsh/Applm
下载链接
链接失效反馈
官方服务:
资源简介:
Applm是一个基于蛋白质语言模型的过敏原预测计算框架,利用1000亿参数的xTrimoPGLM蛋白质语言模型,在多种任务中表现出色,包括识别训练集中缺乏相似示例的新过敏原、区分高序列相似性的同源中的过敏原和非过敏原,以及评估导致蛋白质序列变化较小的突变的后果。Applm在准确预测过敏原方面取得了新的突破,为未来过敏原研究提供了有价值的基准数据集和评估流程。

Applm is a computational framework for allergen prediction based on protein language models. It utilizes the 100-billion-parameter xTrimoPGLM protein language model and excels in multiple tasks, including identifying novel allergens that lack similar examples in the training set, distinguishing allergens from non-allergens among homologs with high sequence similarity, and evaluating the consequences of mutations that induce minimal changes to protein sequences. Applm has achieved new breakthroughs in accurate allergen prediction, providing a valuable benchmark dataset and evaluation workflow for future allergen research.
提供机构:
香港中文大学医学院
创建时间:
2025-08-14
搜集汇总
数据集介绍
main_image_url
构建方式
Applm数据集的构建源于对过敏原精准预测的迫切需求,其构建过程严谨而系统。首先,研究团队从WHO/IUIS、COMPARE和AllergenOnline三大权威数据库中收集经实验验证的过敏原蛋白序列作为正样本,并从UniProt中筛选真核生物的非过敏原蛋白作为负样本。在此基础上,对序列进行了严格的质量控制,剔除长度小于50或大于1000个氨基酸、包含非标准氨基酸以及存在相同或包含关系的序列。尤为关键的是,团队构建了一个新颖的基于相似性感知的评估流水线,通过控制训练集与测试集之间的序列相似性,并确保每个分割内负样本与至少一个正样本具有高度序列相似性,从而系统性地创建了模拟真实世界挑战的基准数据集。
特点
Applm数据集最显著的特点在于其对真实世界应用场景的精确模拟与严苛评估。它精心策划了六组外部测试集,涵盖三大核心挑战:时间维度上的‘按日期’测试集用于评估模型对新发现过敏原的识别能力;‘同源物’测试集聚焦于在高度同源的蛋白质家族中区分过敏原与非过敏原;‘突变体’测试集则专门检验模型如何精准预测由少数氨基酸变异导致的过敏原性变化。这一设计直击传统评估方法的软肋,特别是解决了因训练集与测试集间序列相似性过高导致的性能虚高问题,以及过敏原与非过敏原间序列相似性过低造成的分类任务过于简单化的问题,为模型泛化能力设立了行业新标杆。
使用方法
使用Applm数据集时,研究人员应将其视为一个综合评估框架。核心使用方法包括:首先,利用提供的预训练蛋白质语言模型(如100B参数的xTrimoPGLM)对蛋白质序列进行编码,生成富含上下文信息的嵌入向量;随后,将这些嵌入向量输入至随机森林分类器中进行训练与预测。评估过程需严格遵循数据集构建时设定的相似性控制原则,利用其提供的相似性感知内部交叉验证流水线来调整训练集与测试集间的序列相似度阈值,以获得无偏见的性能估计。最终,模型性能应通过在六个外部测试集上的表现来衡量,重点考察模型在‘按日期’、‘同源物’和‘突变体’这三大类真实难题上的泛化能力,从而确保模型在实战中的可靠性。
背景与挑战
背景概述
过敏性疾病作为全球性的公共卫生挑战,影响约30%至40%的人口,其核心诱因——变应原蛋白的精准识别,对于疾病诊断、治疗及风险评估至关重要。在此背景下,香港中文大学的研究团队Brian Shing-Hei Wong等人于2024年提出了名为Applm的创新计算框架,旨在利用蛋白质语言模型的力量实现高精度变应原预测。该框架是首个将拥有1000亿参数的xTrimoPGLM模型应用于变应原预测的研究,通过捕捉蛋白质序列中深层的生物学特征,旨在克服传统方法在评估中因序列相似性控制不足而导致的性能高估问题,从而推动该领域向更可靠的临床应用迈进。
当前挑战
Applm所应对的核心挑战,首先在于变应原预测领域长期存在的评估缺陷:多数既往研究依赖内部交叉验证,却未能妥善控制训练集与测试集间的序列相似性(inter-split similarity),以及正负样本间的序列差异度(inter-class similarity),导致模型在简单场景下表现优异,却难以在识别新发现变应原、区分高同源性的过敏与非过敏蛋白、以及预测单点突变后的变应原性变化等真实世界难题中有效泛化。此外,构建过程中的挑战同样巨大:团队需要从WHO/IUIS、COMPARE等三大权威数据库收集并严格质控数千条变应原序列,并精准设计涵盖时间划分、同源家族与突变场景的六大外部测试基准集,同时开发一套全新的、能精细控制双重相似性偏差的评估流水线,以确保证据的可靠性。
常用场景
经典使用场景
在蛋白质致敏性预测领域,Applm数据集被经典地用于评估和训练基于蛋白质语言模型的过敏原识别框架。研究者利用该数据集中的精心标注的过敏原与非过敏原序列,通过xTrimoPGLM、ESM-2和ProtT5等预训练模型提取深度序列表征,再结合随机森林分类器实现高精度预测。该数据集的独特之处在于其包含多种真实世界挑战性场景,如同源性家族内的致敏性区分、时间维度上的新型过敏原发现,以及单点突变对致敏性的影响,为模型泛化能力的严格检验提供了标准化的基准平台。
解决学术问题
该数据集直面过敏原预测领域中长期存在的评估方法学缺陷,尤其是训练集与测试集间序列相似性控制不足导致的性能高估问题。通过引入相似性感知的交叉验证管道,Applm数据集系统性地控制了跨分割相似性和类别间相似性,使得内部评估能够更真实地反映模型在现实场景中的表现。这一创新方法揭示了先前研究因相似性泄漏而报告过高性能的普遍现象,推动了领域内对评估规范性的重新审视,并为蛋白质分类任务中避免信息泄漏提供了可推广的解决范式。
衍生相关工作
Applm数据集的提出催生了一系列方法与评估框架的革新性研究。其相似性感知分区策略已被推广至其他蛋白质预测任务,如抗菌肽识别和信号肽预测,形成了如GraphPart、DataSAIL等通用数据分割工具。同时,该工作对蛋白质语言模型嵌入鲁棒性的深入分析,启发了后续关于预训练数据泄漏影响的系统性研究,推动了更严格的基准构建标准。此外,其揭示的“难度匹配”原则和序列长度控制策略,已被整合到多个集成学习框架中,用于优化训练集构建以提升模型在特定任务上的迁移能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作