five

EpicNet

收藏
Hugging Face2025-10-26 更新2025-10-27 收录
下载链接:
https://huggingface.co/datasets/gokulalex/EpicNet
下载链接
链接失效反馈
官方服务:
资源简介:
EpicNet数据集是一个从免疫表位数据库(IEDB)和相关免疫信息学资源中提取的肽和蛋白质表位记录的整合。它标准化了线性肽表位的表示,交叉链接源分子、生物体和分类学参考,并在一致的本体映射下统一了元数据。该数据集支持生物信息学、表位预测的机器学习以及免疫疗法研究,提供了表位、其父蛋白质和相关的免疫上下文的对齐、结构化表示。
创建时间:
2025-10-22
原始信息汇总

EpicNet数据集概述

数据集摘要

  • EpicNet数据集是从免疫表位数据库(IEDB)和相关免疫信息学资源中提取的肽和蛋白质表位记录的精选集成
  • 标准化线性肽表位表示,交叉链接源分子、生物体和分类学参考,并在一致的 ontology 映射下统一元数据
  • 通过提供对齐的结构化表位表示、其亲本蛋白质和相关免疫背景,支持生物信息学、表位预测的机器学习和免疫治疗研究

支持任务与用例

  • 表位-蛋白质映射:链接和分析抗原肽与其源蛋白质和生物体的关系
  • 基于序列的表位预测:训练模型预测免疫原性肽段
  • 抗原相似性和交叉反应性研究:比较不同物种的表位以用于疫苗开发
  • 知识图谱集成:生成RDF/OWL图谱用于 ontology 驱动的免疫信息学
  • 使用变换器或肽编码器(如ESM、ProtBERT)进行嵌入生成和表示学习

数据集结构

  • 记录数量:2,308,224行,代表肽-蛋白质关联
  • 平均肽长度:8-35个氨基酸
  • 近似数据集大小:85.8 MB(原始TSV)/ 156 MB(Parquet)

数据来源与出处

  • IEDB(免疫表位数据库):规范表位和抗原关系
  • UniProt/NCBI蛋白质:序列级参考
  • NCBI分类学:标准化生物体标识符
  • 每个条目将标识符映射到IEDB IRI,提供国际可追溯的交叉链接

语言与数据格式

  • 序列表示:氨基酸单字母代码(A-Y)
  • 元数据字段:英语标签和 ontology 类术语
  • 格式:TSV/Parquet(具有结构化元数据的CSV兼容)

预期用途

  • 计算免疫学流程(例如T细胞/B细胞表位分类器微调)
  • 免疫网络的基于图的表示
  • 病原体和宿主之间的比较肽分析
  • 大规模蛋白质-表位预训练的基础数据集

限制与伦理考虑

  • 数据集反映实验或计算精选的肽序列;并非所有记录都经过实验验证
  • 由于同源物或预测类似物,某些肽段出现在不同物种中
  • 用户必须在临床或诊断应用中验证NCBI分类学和UniProt ID
  • 数据集不包含个人可识别数据或临床元数据

引用

  • 如果您使用此数据集,请引用:
  • Gokul Alex (2025). EpicNet – International Epitope Database Peptide Network. Hugging Face Datasets.
  • 可用地址:https://huggingface.co/datasets/gokulalex/EpicNet

许可证

  • 知识共享署名4.0国际许可证(CC BY-4.0)

数据集创建与维护

  • 作者:Gokul Alex
  • 发布日期:2025年10月
  • 版本:v1.0
  • 联系方式:https://huggingface.co/gokulalex

示例条目

json { "IEDB IRI": "http://www.iedb.org/epitope/1", "Object Type": "Linear peptide", "Name": "AA + MCM(A1,A2)", "Modified Residue(s)": "A1,A2", "Modifications": "Main chain modification", "Starting Position": 200, "Ending Position": 201, "Source Molecule": "Streptokinase", "Source Molecule IRI": "https://uniprot.org/uniprot/P10520", "Source Organism": "Streptococcus pyogenes", "Species": "Streptococcus pyogenes serotype M3 D58" }

致谢

  • 数据来源于IEDB联盟、NCBI和UniProt KB
  • 在EpicNet数据倡议下的编译、集成和 ontology 对齐
搜集汇总
数据集介绍
main_image_url
构建方式
在免疫信息学领域,EpicNet数据集通过系统整合来自免疫表位数据库(IEDB)及关联资源的肽段与蛋白质表位记录构建而成。该过程采用标准化流程统一线性肽表位的表示方式,将源分子、生物体及分类学参照进行交叉关联,并基于一致性本体映射整合元数据。数据源自IEDB的权威表位-抗原关系、UniProt/NCBI的蛋白质序列参考以及NCBI分类学标识,每条记录均映射至可国际追溯的IEDB国际资源标识符,确保数据溯源性与跨平台兼容性。
使用方法
在计算免疫学应用场景中,研究者可借助该数据集开展表位-蛋白质映射分析,训练序列驱动的表位预测模型,或构建基于知识图谱的免疫网络。数据可直接嵌入免疫信息学流程,用于微调T细胞/B细胞表位分类器,或作为蛋白质-表位预训练的基础数据集。使用时需注意通过NCBI分类学与UniProt标识符验证临床适用性,并利用其RDF/OWL兼容特性集成至本体驱动的分析框架。
背景与挑战
背景概述
免疫信息学领域长期面临抗原表位数据分散化与标准化缺失的瓶颈,EpicNet数据集于2025年由Gokul Alex主导构建,系统整合了免疫表位数据库(IEDB)及关联生物信息学资源的肽段与蛋白质表位记录。该数据集通过统一线性肽表位表征框架,建立源分子、生物体与分类学参照的交叉关联,为表位预测模型训练、免疫治疗机制解析及跨物种抗原比较研究提供了结构化数据基础,显著推进了计算免疫学与生物医学人工智能的融合发展。
当前挑战
在表位-蛋白质映射任务中,需解决短肽序列空间稀疏性导致的特征提取难题,以及同源蛋白表位交叉反应性引发的预测特异性不足问题。数据集构建过程中面临原始数据异构性挑战,包括IEDB实验记录与计算预测结果的可靠性分层、多源生物数据库标识符的语义对齐,以及肽段修饰信息在机器学习表征中的标准化转换,这些因素共同增加了数据整合与质量控制的复杂度。
常用场景
经典使用场景
在免疫信息学领域,EpicNet数据集常被用于构建抗原表位与蛋白质之间的映射关系。通过整合来自IEDB等权威资源的线性肽表位记录,该数据集支持序列层面的表位预测任务,例如训练机器学习模型识别免疫原性肽段。其标准化的氨基酸序列表示和统一的元数据框架,为跨物种抗原相似性研究提供了可靠基础,尤其在疫苗开发中用于分析病原体与宿主的免疫交叉反应性。
解决学术问题
该数据集通过结构化整合多源免疫表位数据,解决了表位预测模型中数据异构性和标注不一致的学术难题。其提供的肽-蛋白质关联网络支持知识图谱构建,推动了基于本体的免疫信息推理研究。同时,标准化的分类学标识和蛋白质交叉引用机制,为研究病原体进化保守性与免疫逃逸机制提供了关键数据支撑,显著提升了计算免疫学研究的可重复性与跨数据库可比性。
实际应用
在实际应用中,EpicNet为精准医疗中的免疫疗法设计提供了数据基础。临床研究人员可利用其肽段序列与宿主蛋白的关联数据,筛选特异性T细胞表位用于个性化癌症疫苗开发。制药企业通过分析跨物种表位保守性,加速广谱疫苗的候选抗原鉴定。此外,该数据集支持的嵌入表示学习技术,已应用于高通量免疫受体筛选平台,提升免疫诊断试剂的开发效率。
数据集最近研究
最新研究方向
在免疫信息学领域,EpicNet数据集正推动表位预测研究向多模态知识融合方向发展。前沿工作聚焦于结合Transformer架构与知识图谱嵌入,利用ESM或ProtBERT等预训练模型生成肽序列的语义表示,同时整合宿主-病原体相互作用网络以揭示交叉反应性机制。该数据集支撑的抗原相似性分析已成为疫苗设计的核心工具,尤其在应对新发传染病时能够快速筛选保守表位。其标准化的本体映射体系更促进了免疫学数据在AI驱动药物发现中的可解释性应用,为免疫治疗策略提供分子层面的计算基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作