evals_eqtl

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/bolinas-dna/evals_eqtl

下载链接

链接失效反馈

官方服务：

资源简介：

evals_eqtl是一个用于变异性状预测的基准数据集，专注于比较GTEx v8项目中精细定位的表达数量性状位点（eQTLs）与经过测试但具有低后验包含概率（PIP）的变异。数据集构建基于eQTL Catalogue r7中的GTEx v8研究（QTS000015），涵盖了49个人体组织的基因表达数据。正样本定义为在至少一个组织中SuSiE精细映射变异的最大PIP值大于0.9的变异；负样本则定义为在所有测试组织中最大PIP值小于0.01的变异，并与正样本在基因、功能后果类别、等位基因频率（MAF）分箱和距离分箱上进行1:1匹配。数据集仅包含单核苷酸变异（SNVs），使用GRCh38（hg38）基因组构建和1-based坐标系统。总数据集包含8,466个变异（4,233对正负样本），按染色体奇偶性分为训练集（4,612个样本，来自奇数染色体）和测试集（3,854个样本，来自偶数染色体）。数据字段包括变异坐标（染色体、位置、参考等位基因、替代等位基因）、二元标签（正/负）、功能后果子集类别（如远端、TSS近端、非编码转录本外显子变异、UTR变异、错义变异、同义变异、剪接变异等）、匹配对ID、跨组织的最大PIP值、PIP>0.9的组织列表、平均等位基因频率（MAF）、Ensembl VEP功能后果注释、到最近转录起始位点（TSS）和最近外显子的距离及其对应的最近基因ID，以及用于匹配的分箱类别。数据集的构建采用了严格的匹配设计，在多个分类特征上进行精确匹配，并在连续特征上使用欧几里得最近邻作为平局决胜规则，旨在控制混杂因素以进行公平的模型评估。该数据集适用于开发、评估和基准测试基因组学中的变异性状预测模型，特别是eQTL预测任务。

创建时间：

2026-05-08

搜集汇总

数据集介绍

构建方式

evals_eqtl数据集的构建依托于GTEx v8计划中49种组织的精细定位eQTL数据，源自eQTL Catalogue r7版本。研究者将SuSiE算法识别出的高后验包含概率（PIP>0.9）的变异作为阳性样本，并从每个组织完整的名义统计汇总文件中提取PIP<0.01的变异作为阴性候选池，构建了一个更为丰富的阴性参照库。通过基于基因、功能后果类别、等位基因频率区间和距离区间的精确匹配策略，再利用稳健缩放后的连续特征进行欧几里得最近邻匹配，最终生成8,466个变异样本，涵盖训练集和测试集。

特点

该数据集具有高度结构化的特点：阳性与阴性样本以1:1配对形式组织，依据变异的功能后果细分为远端、近端转录起始位点、非编码转录本外显子等八个亚组，便于进行分层评估。每个样本包含丰富的注释信息，如染色体位置、PIP值、调控的组织与基因、等位基因频率及多种距离度量，并预先划分了用于匹配的分类箱。匹配体系中融入了针对不同亚组的差异化方案，例如对远端变异采用局部等宽对数MAF分箱，有效控制了混杂因素。

使用方法

该数据集可直接作为变异效应预测模型的基准测试集，用户通过加载`chrom`、`pos`、`ref`、`alt`坐标及`label`标签，即可训练或评估分类器。推荐按照`subset`列进行分层评估，以揭示模型在不同功能区域上的表现差异。`match_group`字段可用于进行配对检验。数据以标准表格格式提供，兼容常见机器学习框架，且`bolinas-dna`开源流水线复现了完整的构建过程，确保了结果的可重复性。

背景与挑战

背景概述

evals_eqtl数据集由Open-Athena团队于2024年构建，旨在为基因表达数量性状位点（eQTL）的功能预测提供一个严格的基准测试平台。该数据集基于GTEx v8项目49个组织的精细映射结果，结合eQTL Catalogue r7发布的全量统计汇总数据，系统性地构建了高质量正向实例（PIP>0.9）与匹配阴性对照（PIP<0.01）的对偶样本集。通过精密的基因-变异配对策略，数据集涵盖了从远端调控到剪接位点等多种功能注释类别，为评估变异效应预测模型在调控基因组学领域的表现提供了权威的测试基准，有力推动了计算生物学中eQTL精细映射与功能验证方法的发展。

当前挑战

该数据集面临的核心挑战在于解决eQTL精细映射中的虚假关联识别问题。具体而言，领域挑战包括：1）从海量统计检验中区分真正具有调控功能的因果变异（PIP>0.9）与背景噪声，确保样本标签的可靠性；2）处理不同功能类别（如剪接变异、远端调控变异）间的负样本稀缺性，其中剪接类别的匹配保留率仅约3%。构建挑战体现在：1）设计多维精确匹配框架时需同时控制染色体、基因、功能注释与等位基因频率等离散特征和距离、MAF等连续特征的混杂因素；2）应对大规模全量统计汇总数据（约10M变异）带来的计算与存储压力；3）消除残余的匹配泄漏（如远端变异在距离TSS和MAF上的微弱不平衡），从而保证评估的公正性和统计效力。

常用场景

经典使用场景

evals_eqtl数据集最经典的使用场景是作为基因变异效应预测模型的基准测试平台。该数据集精心构建了来自GTEx v8项目的精细定位表达数量性状位点，包含高后验概率的正样本与经基因匹配的低PIP负样本，覆盖49种组织。研究者可利用其跨越多种变异后果类别、等位基因频率区间和距离区间的分层结构，系统评估计算模型在区分功能性eQTL与非功能性变异方面的预测能力，是检验基因组学方法性能的重要参考。

衍生相关工作

该数据集衍生了多项具有影响力的研究工作，包括围绕匹配算法优化的迭代改进，如针对远端变异开发的局部对数等位基因频率分箱策略以消除渐近偏差，以及针对剪接变异设计的窄区间距离分箱方案。这些方法学创新后来被应用于其他基因组调控元素的功能预测基准构建，形成了系统性的变异效应评估框架。基于该框架衍生出的跨组织、跨变异类别的评估协议，更成为后续多项基因组学工具性能评测的标准参考。

数据集最近研究