EpicNet
收藏Hugging Face2025-10-26 更新2025-10-27 收录
下载链接:
https://huggingface.co/datasets/gokulalex/EpicNet
下载链接
链接失效反馈官方服务:
资源简介:
EpicNet数据集是一个从免疫表位数据库(IEDB)和相关免疫信息学资源中提取的肽和蛋白质表位记录的整合。它标准化了线性肽表位的表示,交叉链接源分子、生物体和分类学参考,并在一致的本体映射下统一了元数据。该数据集支持生物信息学、表位预测的机器学习以及免疫疗法研究,提供了表位、其父蛋白质和相关的免疫上下文的对齐、结构化表示。
创建时间:
2025-10-22
原始信息汇总
EpicNet数据集概述
数据集摘要
- EpicNet数据集是从免疫表位数据库(IEDB)和相关免疫信息学资源中提取的肽和蛋白质表位记录的精选集成
- 标准化线性肽表位表示,交叉链接源分子、生物体和分类学参考,并在一致的 ontology 映射下统一元数据
- 通过提供对齐的结构化表位表示、其亲本蛋白质和相关免疫背景,支持生物信息学、表位预测的机器学习和免疫治疗研究
支持任务与用例
- 表位-蛋白质映射:链接和分析抗原肽与其源蛋白质和生物体的关系
- 基于序列的表位预测:训练模型预测免疫原性肽段
- 抗原相似性和交叉反应性研究:比较不同物种的表位以用于疫苗开发
- 知识图谱集成:生成RDF/OWL图谱用于 ontology 驱动的免疫信息学
- 使用变换器或肽编码器(如ESM、ProtBERT)进行嵌入生成和表示学习
数据集结构
- 记录数量:2,308,224行,代表肽-蛋白质关联
- 平均肽长度:8-35个氨基酸
- 近似数据集大小:85.8 MB(原始TSV)/ 156 MB(Parquet)
数据来源与出处
- IEDB(免疫表位数据库):规范表位和抗原关系
- UniProt/NCBI蛋白质:序列级参考
- NCBI分类学:标准化生物体标识符
- 每个条目将标识符映射到IEDB IRI,提供国际可追溯的交叉链接
语言与数据格式
- 序列表示:氨基酸单字母代码(A-Y)
- 元数据字段:英语标签和 ontology 类术语
- 格式:TSV/Parquet(具有结构化元数据的CSV兼容)
预期用途
- 计算免疫学流程(例如T细胞/B细胞表位分类器微调)
- 免疫网络的基于图的表示
- 病原体和宿主之间的比较肽分析
- 大规模蛋白质-表位预训练的基础数据集
限制与伦理考虑
- 数据集反映实验或计算精选的肽序列;并非所有记录都经过实验验证
- 由于同源物或预测类似物,某些肽段出现在不同物种中
- 用户必须在临床或诊断应用中验证NCBI分类学和UniProt ID
- 数据集不包含个人可识别数据或临床元数据
引用
- 如果您使用此数据集,请引用:
- Gokul Alex (2025). EpicNet – International Epitope Database Peptide Network. Hugging Face Datasets.
- 可用地址:https://huggingface.co/datasets/gokulalex/EpicNet
许可证
- 知识共享署名4.0国际许可证(CC BY-4.0)
数据集创建与维护
- 作者:Gokul Alex
- 发布日期:2025年10月
- 版本:v1.0
- 联系方式:https://huggingface.co/gokulalex
示例条目
json { "IEDB IRI": "http://www.iedb.org/epitope/1", "Object Type": "Linear peptide", "Name": "AA + MCM(A1,A2)", "Modified Residue(s)": "A1,A2", "Modifications": "Main chain modification", "Starting Position": 200, "Ending Position": 201, "Source Molecule": "Streptokinase", "Source Molecule IRI": "https://uniprot.org/uniprot/P10520", "Source Organism": "Streptococcus pyogenes", "Species": "Streptococcus pyogenes serotype M3 D58" }
致谢
- 数据来源于IEDB联盟、NCBI和UniProt KB
- 在EpicNet数据倡议下的编译、集成和 ontology 对齐
搜集汇总
数据集介绍

构建方式
在免疫信息学领域,EpicNet数据集通过系统整合来自免疫表位数据库(IEDB)及关联资源的肽段与蛋白质表位记录构建而成。该过程采用标准化流程统一线性肽表位的表示方式,将源分子、生物体及分类学参照进行交叉关联,并基于一致性本体映射整合元数据。数据源自IEDB的权威表位-抗原关系、UniProt/NCBI的蛋白质序列参考以及NCBI分类学标识,每条记录均映射至可国际追溯的IEDB国际资源标识符,确保数据溯源性与跨平台兼容性。
使用方法
在计算免疫学应用场景中,研究者可借助该数据集开展表位-蛋白质映射分析,训练序列驱动的表位预测模型,或构建基于知识图谱的免疫网络。数据可直接嵌入免疫信息学流程,用于微调T细胞/B细胞表位分类器,或作为蛋白质-表位预训练的基础数据集。使用时需注意通过NCBI分类学与UniProt标识符验证临床适用性,并利用其RDF/OWL兼容特性集成至本体驱动的分析框架。
背景与挑战
背景概述
免疫信息学领域长期面临抗原表位数据分散化与标准化缺失的瓶颈,EpicNet数据集于2025年由Gokul Alex主导构建,系统整合了免疫表位数据库(IEDB)及关联生物信息学资源的肽段与蛋白质表位记录。该数据集通过统一线性肽表位表征框架,建立源分子、生物体与分类学参照的交叉关联,为表位预测模型训练、免疫治疗机制解析及跨物种抗原比较研究提供了结构化数据基础,显著推进了计算免疫学与生物医学人工智能的融合发展。
当前挑战
在表位-蛋白质映射任务中,需解决短肽序列空间稀疏性导致的特征提取难题,以及同源蛋白表位交叉反应性引发的预测特异性不足问题。数据集构建过程中面临原始数据异构性挑战,包括IEDB实验记录与计算预测结果的可靠性分层、多源生物数据库标识符的语义对齐,以及肽段修饰信息在机器学习表征中的标准化转换,这些因素共同增加了数据整合与质量控制的复杂度。
常用场景
经典使用场景
在免疫信息学领域,EpicNet数据集常被用于构建抗原表位与蛋白质之间的映射关系。通过整合来自IEDB等权威资源的线性肽表位记录,该数据集支持序列层面的表位预测任务,例如训练机器学习模型识别免疫原性肽段。其标准化的氨基酸序列表示和统一的元数据框架,为跨物种抗原相似性研究提供了可靠基础,尤其在疫苗开发中用于分析病原体与宿主的免疫交叉反应性。
解决学术问题
该数据集通过结构化整合多源免疫表位数据,解决了表位预测模型中数据异构性和标注不一致的学术难题。其提供的肽-蛋白质关联网络支持知识图谱构建,推动了基于本体的免疫信息推理研究。同时,标准化的分类学标识和蛋白质交叉引用机制,为研究病原体进化保守性与免疫逃逸机制提供了关键数据支撑,显著提升了计算免疫学研究的可重复性与跨数据库可比性。
实际应用
在实际应用中,EpicNet为精准医疗中的免疫疗法设计提供了数据基础。临床研究人员可利用其肽段序列与宿主蛋白的关联数据,筛选特异性T细胞表位用于个性化癌症疫苗开发。制药企业通过分析跨物种表位保守性,加速广谱疫苗的候选抗原鉴定。此外,该数据集支持的嵌入表示学习技术,已应用于高通量免疫受体筛选平台,提升免疫诊断试剂的开发效率。
数据集最近研究
最新研究方向
在免疫信息学领域,EpicNet数据集正推动表位预测研究向多模态知识融合方向发展。前沿工作聚焦于结合Transformer架构与知识图谱嵌入,利用ESM或ProtBERT等预训练模型生成肽序列的语义表示,同时整合宿主-病原体相互作用网络以揭示交叉反应性机制。该数据集支撑的抗原相似性分析已成为疫苗设计的核心工具,尤其在应对新发传染病时能够快速筛选保守表位。其标准化的本体映射体系更促进了免疫学数据在AI驱动药物发现中的可解释性应用,为免疫治疗策略提供分子层面的计算基础。
以上内容由遇见数据集搜集并总结生成



