five

TenK10K_multiome

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/anglixue/TenK10K_multiome
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由TenK10K多组学团队整理,旨在提供人类外周血单个核细胞(PBMCs)中染色质可及性的遗传效应的大规模、单细胞分辨率总结统计。数据集包含来自922名捐赠者的28种免疫细胞类型的染色质可及性QTL(caQTL)总结统计,共定位结果、精细定位输出、ChromBPNet变异效应评分、细胞状态依赖性caQTL结果以及基因调控网络推断输出。数据集适用于研究人类免疫细胞中基因表达和染色质可及性的遗传调控,包括但不限于识别复杂疾病和血液性状的GWAS位点下的调控机制、使用提供的共定位、SMR和GLUE峰-基因结果将染色质峰与靶基因连接、推断特定免疫细胞类型中的转录因子-靶基因调控网络等。数据集不适用于临床决策或个人级遗传推断,仅发布群体级总结统计。
创建时间:
2026-04-29
搜集汇总
数据集介绍
main_image_url
构建方式
在群体规模单细胞分辨率下探究遗传变异对染色质可及性的调控效应,TenK10K_multiome数据集应运而生。该数据集基于TenK10K项目,整合了来自塔斯马尼亚眼科生物银行、BioHeart和LBIO队列的1,042名捐赠者的单细胞ATAC-seq及多组学数据,经严格质控后保留922名捐赠者的347万个细胞核。利用MACS3和SnapATAC2按28种免疫细胞类型分别鉴定染色质峰并合并为440,996个共识峰,进而使用TensorQTL在±1 Mb顺式窗口内进行染色质可及性数量性状位点(caQTL)定位,并辅以置换检验校正。此外,通过coloc和SMR开展共定位分析,借助GLUE推断基因调控网络,运用SuSiE和mvSuSiE进行精细定位,并利用ChromBPNet深度学习模型预测变异效应,最终生成涵盖caQTL汇总统计、共定位结果、精细映射输出、细胞状态依赖性caQTL及调控网络的多层次成果。
特点
该数据集的核心优势在于其群体规模的单细胞分辨率和多组学整合深度,为解析非编码遗传变异在复杂疾病中的调控机制提供了前所未有的资源。它覆盖了28种外周血免疫细胞类型,系统揭示了染色质可及性的遗传调控景观,并通过caQTL与eQTL、GWAS的共定位分析,填补了传统研究仅关注表达数量性状位点的局限。数据集包含mvSuSiE多变量精细定位可信集、ChromBPNet核苷酸分辨率效应评分,以及细胞状态依赖的caQTL结果,支持从因果变异识别到转录因子-靶基因网络推断的全链条分析。同时,基于共识峰的表征方式在确保跨细胞类型可比性的同时,也意味着需要用户注意不同测序平台和峰识别策略可能带来的研究间差异。
使用方法
研究者可通过HuggingFace平台直接获取该数据集,其中包含440,996个共识峰的功能注释、各细胞类型的caQTL汇总统计数据,以及精细定位、ChromBPNet评分和基因调控网络输出。使用时应确保外部GWAS或eQTL数据与数据集保持一致的基因组参考版本(GRCh38)和变异注释规范。支持的应用场景包括:整合caQTL与GWAS结果以揭示复杂疾病和血液性状的调控机制,利用coloc、SMR和GLUE输出连接染色质峰与靶基因,基于细胞年龄相互作用结果探索细胞状态依赖的遗传效应,以及使用ChromBPNet权重和评分进行调控变异效应预测模型的基准测试或训练。需注意该数据集仅提供群体层面汇总统计,不适用于临床决策或个体遗传风险评估,且建议在低丰度细胞类型中的发现需在独立数据中验证。
背景与挑战
背景概述
TenK10K_multiome数据集由澳大利亚Garvan医学研究所和悉尼新南威尔士大学的研究人员于2025年创建,核心团队包括Angli Xue、Jianan Fan等,并由澳大利亚国家健康与医学研究委员会(NHMRC)资助。该数据集旨在解析人类外周血单核细胞(PBMC)中染色质可及性的遗传调控,通过整合来自922名供体的单细胞ATAC-seq和多组学数据,覆盖28种免疫细胞类型。其核心研究问题聚焦于非编码遗传变异如何通过影响染色质可及性来调控基因表达,进而揭示复杂疾病与免疫功能的遗传机制。作为TenK10K计划的首阶段成果,该数据集提供了大规模的染色质可及性QTL(caQTL)汇总统计、精细定位结果及基因调控网络推断,为理解基因组非编码区域的功能提供了重要资源,并对免疫遗传学与精准医学领域产生了深远影响。
当前挑战
该数据集面临的挑战涵盖领域问题与构建过程两方面。在领域问题层面,其主要挑战在于解决全基因组关联研究(GWAS)位点与表达QTL(eQTL)重叠有限的问题,通过caQTL分析揭示非编码变异对染色质可及性的细胞类型特异性调控,从而弥补遗传调控机制解析中的缺口。在构建过程中,关键技术挑战包括:从3.47百万细胞核中跨细胞类型准确识别44万余个一致性染色质峰,并采用TensorQTL进行大规模顺式caQTL映射;整合多组学数据(如scATAC-seq与scRNA-seq)以推断峰值-基因及转录因子-靶基因调控关系;此外,群体遗传多样性有限(主要为欧洲血统)限制了结果的普适性,而稀有细胞类型(如浆母细胞)的低丰度导致统计效力不足,增加了假阴性率。
常用场景
经典使用场景
TenK10K_multiome数据集的核心应用场景在于系统解析人类外周血单个核细胞(PBMC)中染色质可及性的遗传调控图谱。该数据集汇聚了来自922名供体的28种免疫细胞类型的染色质可及性数量性状位点(caQTL)汇总统计量,为研究者提供了前所未有的单细胞分辨率遗传效应洞察。通过整合其中的共定位分析结果、精细定位输出及ChromBPNet变异效应评分,研究者能够深入探索非编码调控元件如何在不同免疫细胞类型中介导遗传变异对基因表达和染色质状态的差异化影响。此外,该数据集还包含了细胞状态依赖的caQTL结果和基因调控网络推断输出,使其成为研究免疫微环境中遗传调控动态变化的宝贵资源。
解决学术问题
该数据集有效解决了复杂疾病遗传学研究中长期存在的关键难题——全基因组关联研究(GWAS)所识别的非编码风险位点与表达数量性状位点(eQTL)之间仅有有限重叠,难以直接解释其调控机制。TenK10K_multiome通过大规模绘制caQTL图谱,将遗传变异与染色质可及性直接关联,为GWAS信号的功能解析提供了全新维度。其提供的共定位和基于汇总数据的孟德尔随机化(SMR)分析结果,使研究者能够区分共享因果变异与连锁不平衡带来的混杂效应,显著提升了因果推断的精确性。同时,多变量精细定位方法(mvSuSiE)的应用为同时影响染色质可及性、基因表达和疾病风险的因果变异的鉴定奠定了方法学基础,推动了从关联信号到功能机制的转化进程。
衍生相关工作
源于TenK10K_multiome数据集的衍生工作涵盖了多个前沿研究方向。其中,利用该数据集开展的常见与罕见遗传变异对细胞类型特异性基因表达影响的研究(Cuomo et al., 2025),系统评估了不同频率变异对免疫细胞转录组的贡献。基于该数据集中串联重复序列变异的研究(Tanudisastro et al., 2025)揭示了多态性重复元件如何调控免疫景观中的基因表达,拓展了对结构变异功能影响的认识。此外,因果推断研究(Henry et al., 2025)利用单细胞遗传学方法,在复杂性状和疾病中鉴定了细胞类型特异的因果机制,展示了该数据集在精细定位和共定位分析中的推广价值。关于体细胞突变和克隆性造血的研究(Qiao et al., 2026)则进一步将单细胞多组学技术应用于解析细胞类型特异的遗传调控与选择压力,这些衍生工作共同构建了一个相互印证、互为补充的知识体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作