airr_benchmark
收藏Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/isalgo/airr_benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于适应性免疫受体库(AIRR)研究领域的基准数据集集合,旨在支持各种AIRR工具和算法的评估与比较。数据集整合了来自多个知名工具和项目的数据,包括VDJtools、VDJdb、ALICE、TCRnet、GLIPH/GLIPH2和pyigmap。其中,gliph/子目录下的数据来源于两项关于T细胞受体(TCR)库特异性分析和结核分枝杆菌免疫反应的重要研究(分别发表于《Nature》和《Nature Biotechnology》期刊)。alice/mlr子目录下的数据则来源于一项利用混合淋巴细胞反应(MLR)培养和高通量测序技术定义同种异体反应性T细胞库的研究(发表于《PLOS ONE》)。该数据集主要关注T细胞受体(TCR)和B细胞受体(BCR)相关的基序、抗原特异性、免疫遗传学和RNA测序(RNA-seq)分析,适用于免疫受体库分析、抗原特异性预测、克隆型聚类、算法基准测试等任务。
This dataset is a benchmark dataset collection for the Adaptive Immune Receptor Repertoire (AIRR) research field, designed to support the evaluation and comparison of various AIRR tools and algorithms. It integrates data from multiple well-known tools and projects, including VDJtools, VDJdb, ALICE, TCRnet, GLIPH/GLIPH2, and pyigmap. Specifically, data in the gliph/ subdirectory originates from two significant studies on T-cell receptor (TCR) repertoire specificity analysis and Mycobacterium tuberculosis immune responses (published in Nature and Nature Biotechnology, respectively). Data in the alice/mlr subdirectory comes from a study that utilized mixed lymphocyte reaction (MLR) culture and high-throughput sequencing to define alloreactive T-cell repertoires (published in PLOS ONE). The dataset primarily focuses on motifs, antigen specificity, immunogenetics, and RNA sequencing (RNA-seq) analysis related to T-cell receptors (TCR) and B-cell receptors (BCR), and is suitable for tasks such as immune receptor repertoire analysis, antigen specificity prediction, clonotype clustering, and algorithm benchmarking.
创建时间:
2026-05-06
搜集汇总
数据集介绍

构建方式
该数据集整合了来自多种AIRR(适应性免疫受体库)工具与算法的基准数据,涵盖VDJtools、VDJdb、ALICE、TCRnet、GLIPH/GLIPH2及pyigmap等代表性方法。构建过程中,系统性地收集并组织了一系列已发表研究中的免疫组库数据,例如GLIPH数据集源自Glanville等人(2017)与Huang等人(2020)关于T细胞受体特异性群识别的经典工作;ALICE/mlr数据来自Emerson等人(2014)对同种异体反应性T细胞库的高通量测序研究;dcode数据则来源于10X Genomics提供的健康供体CD8+ T细胞样本。此外,还纳入了Qi等人(2014)与Britanova等人(2016)关于T细胞库多样性与克隆选择的研究数据,以及Emerson等人(2017)基于免疫测序的巨细胞病毒暴露特征分析数据。所有原始数据均经过标准化处理,以形成统一的基准测试平台。
特点
该基准数据集具备多维度的显著特点。首先,其来源广泛且权威,覆盖了从个体T细胞库克隆多样性动态变化到抗原特异性T细胞受体聚类分析等多个免疫组学研究前沿领域,确保了数据资源的高质量与可靠性。其次,数据集的组成具有高度异质性,囊括了不同实验条件(如混合淋巴细胞反应)、不同疾病状态(如巨细胞病毒感染)以及不同测序平台(如10X Genomics)生成的免疫组库数据,为评估各类AIRR工具的性能提供了丰富的测试场景。再者,该数据集遵循CC-BY-NC-ND-4.0许可协议,在保护原始研究版权的同时,促进了学术研究中的基准共享与比较。
使用方法
用户可将此数据集作为标准化的评估基准,用于测试和比较不同AIRR分析算法在T细胞受体(TCR)与B细胞受体(BCR)序列处理、基序发现、抗原特异性预测以及免疫组库多样性计算等方面的表现。具体使用时,研究人员需根据所选工具的输入格式要求,从数据集中提取对应子集(如gliph/、alice/mlr/、vdjtools/等目录下的数据),并遵循各原始文献中的数据处理流程进行参数配置。建议用户在调用数据集前,仔细阅读各子数据集的元数据说明,以确保实验设计的科学性与结果的可重复性。
背景与挑战
背景概述
在免疫组学领域,T细胞受体(TCR)与B细胞受体(BCR)库的深入解析对于理解抗原特异性免疫应答至关重要。为此,研究者们开发了一系列计算工具以从高通量测序数据中挖掘免疫受体序列的规律,但缺乏统一的基准数据集来评估其性能。airr_benchmark数据集应运而生,它整合了来自VDJtools、VDJdb、ALICE、TCRnet、GLIPH/GLIPH2及pyigmap等主流工具和算法的基准数据,由多个国际研究团队联合构建,相关研究发表于Nature、Nature Biotechnology等顶级期刊。该数据集主要围绕TCR/BCR序列的克隆鉴定、抗原特异性预测及免疫组库多样性分析等核心问题,为免疫信息学工具的性能比较提供了标准化平台,推动了自适应免疫受体库分析方法的验证与优化。
当前挑战
免疫受体库分析领域面临的核心挑战在于从海量、高异质性的测序数据中准确识别抗原特异性TCR/BCR基序,并将受体序列与其识别的抗原靶点关联。现有算法在假阳性控制、跨数据集泛化能力及计算效率方面存在显著差异。airr_benchmark数据集在构建过程中需解决数据来源异质性带来的标准化难题,包括不同测序平台(如10X Genomics)产生的数据格式差异、引用文献中实验设计的多样性(如混合淋巴细胞反应、感染模型等),以及元数据的不一致性。此外,从已发表研究中提取并统一注释TCR/BCR序列、克隆丰度及抗原标签需要精细的文献挖掘与数据清洗,确保基准数据集的可靠性和可复现性,这对构建过程提出了严苛的技术要求。
常用场景
经典使用场景
在免疫组学研究的广阔天地中,AIRR(适应性免疫受体库)测序数据的分析工具层出不穷,然而不同工具的性能评估往往因缺乏统一标准而难以横向比较。airr_benchmark数据集应运而生,它汇集了来自VDJtools、VDJdb、ALICE、TCRnet、GLIPH/GLIPH2及pyigmap等经典方法与算法的基准测试数据,为研究者提供了一个标准化的性能评价平台。这一数据集最经典的使用场景在于评估与对比各类TCR(T细胞受体)与BCR(B细胞受体)分析工具在抗原特异性识别、基序发现及克隆多样性计算等核心任务上的表现,从而帮助科研人员甄选出最适配于其研究目标的计算策略。
解决学术问题
该数据集精准回应了免疫信息学领域中一个长期存在的核心痛点——如何客观、可重复地验证新开发算法相较于已有方法的优越性。通过整合来自Nature、Nature Biotechnology、PLoS One等顶刊研究中的真实免疫测序数据,airr_benchmark使得研究者能够在同一基准上检验工具对T细胞受体聚类、抗原特异性基序挖掘、以及同种异体反应性T细胞库分析等问题的解决能力。此举不仅极大促进了算法研发的规范化进程,更推动了免疫组学从经验驱动向数据驱动范式的深刻转型,为揭示免疫应答规律与疾病关联机制奠定了坚实的量化基础。
衍生相关工作
围绕airr_benchmark数据集已涌现出一系列具有深远影响的衍生工作。该数据集成为了诸如TCR聚类算法评估框架不可或缺的组成部分,推动了GLIPH2、ALICE等工具的迭代升级;在方法学层面,研究者基于此基准提出了新型的TCR基序统计检验策略与伪似然优化模型,显著提升了抗原特异性信号的识别精度。同时,该数据集也被用作迁移学习与多模态免疫组学融合分析的验证集合,催生了若干整合RNA-seq与BCR/TCR-seq数据的联合分析管线,进一步拓展了免疫组库研究的方法论边疆,彰显了其在免疫信息学演进历程中的基石地位。
以上内容由遇见数据集搜集并总结生成



