songlab/gpn-msa-hg38-scores

Name: songlab/gpn-msa-hg38-scores
Creator: songlab
Published: 2025-01-02 21:21:01
License: 暂无描述

Hugging Face2025-01-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/songlab/gpn-msa-hg38-scores

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了人类基因组中所有可能的单核苷酸多态性（SNPs）的GPN-MSA预测分数，大约有90亿个预测。这些预测分数可以帮助研究人员了解不同SNPs对基因功能的影响。

This dataset contains GPN-MSA predictions for all possible SNPs in the human genome, with approximately 9 billion predictions. These prediction scores can help researchers understand the impact of different SNPs on gene function.

提供机构：

songlab

原始信息汇总

GPN-MSA predictions for all possible SNPs in the human genome (~9 billion)

数据集查询

安装tabix

在当前conda环境中安装： bash conda install -c bioconda -c conda-forge htslib=1.18
在新conda环境中安装： bash conda create -n tabix -c bioconda -c conda-forge htslib=1.18 conda activate tabix

查询特定区域

远程文件查询示例（例如BRCA1）： bash tabix https://huggingface.co/datasets/songlab/gpn-msa-hg38-scores/resolve/main/scores.tsv.bgz 17:43,044,295-43,125,364

输出格式： | chrom | pos | ref | alt | GPN-MSA score | 示例输出： tsv 17 43044295 T A -1.60 17 43044295 T C -1.47 17 43044295 T G -1.61 17 43044296 G A -1.12 17 43044296 G C -1.46 17 43044296 G T -1.45 17 43044297 G A -1.45 17 43044297 G C -1.55 17 43044297 G T -1.54 17 43044298 A C -1.64

本地文件查询

下载文件到本地： bash wget https://huggingface.co/datasets/songlab/gpn-msa-hg38-scores/resolve/main/scores.tsv.bgz wget https://huggingface.co/datasets/songlab/gpn-msa-hg38-scores/resolve/main/scores.tsv.bgz.tbi
本地文件查询示例： bash tabix scores.tsv.bgz 17:43,044,295-43,125,364

搜集汇总

数据集介绍

构建方式

在基因组学领域，精准预测单核苷酸多态性（SNP）的功能影响是理解遗传变异与表型关联的关键。GPN-MSA数据集基于人类参考基因组hg38，通过GPN-MSA模型系统性地计算了全基因组范围内所有可能的SNP（约90亿个）的功能评分。该模型的构建依赖于大规模多序列比对（MSA）数据，利用深度学习架构捕捉进化保守性模式，从而为每个变异位点生成连续数值评分，以量化其可能对基因功能产生的效应。数据以压缩的TSV格式存储，并通过标准基因组坐标索引，确保了高效查询与可扩展性。

特点

该数据集的核心特点在于其全面性与计算效率的平衡。它覆盖了人类基因组中几乎所有理论上的单核苷酸变异，提供了统一的GPN-MSA评分，该评分反映了变异在进化过程中的约束程度，可作为功能有害性的代理指标。数据以标准化的基因组浏览器可索引格式（BGZ压缩配合TBI索引）发布，支持通过tabix工具进行快速区域查询。此外，数据集设计兼顾了灵活性与性能，用户既可远程访问特定基因或区域，也可下载完整文件进行本地批量处理，适应不同规模的研究需求。

使用方法

使用本数据集主要依赖于命令行工具tabix进行变异查询。用户需首先安装htslib工具包，随后可通过指定染色体位置范围（例如‘17:43,044,295-43,125,364’）从远程或本地文件检索特定区域的SNP评分。输出为标准五列TSV格式，包含染色体、位置、参考碱基、替代碱基及对应的GPN-MSA评分。对于大规模分析，如涉及数百万个离散位点，直接使用pandas或polars等库加载整个或分染色体数据文件进行连接操作可能更为高效。数据集文档亦建议，为优化内存使用，可预先按染色体分割数据文件。

背景与挑战

背景概述

在基因组学领域，精准预测单核苷酸多态性（SNP）的功能影响是理解遗传变异与疾病关联的核心科学问题。由加州大学伯克利分校Song Lab团队于2024年创建的GPN-MSA数据集，基于其开发的生成式预训练网络与多序列比对模型，系统性地评估了人类基因组（hg38参考序列）中约90亿个可能SNP的致病性评分。该数据集通过《自然·生物技术》期刊发表，标志着深度学习在基因组功能注释领域的重大突破，为遗传学家提供了前所未有的全基因组尺度变异效应预测工具，显著推动了精准医学与功能基因组学的研究进程。

当前挑战

该数据集致力于解决遗传变异效应预测这一长期存在的领域挑战，即如何准确、高效地从海量基因组变异中识别出致病性位点。其构建过程面临多重技术难题：首先，处理约90亿个SNP的计算规模极其庞大，对算法效率与计算资源提出了极高要求；其次，需要整合多序列比对信息以捕捉进化保守性，这涉及复杂的模型架构设计与大规模生物序列数据处理；最后，生成可便捷查询的标准化数据格式，并平衡存储、传输与访问效率，亦是工程实现上的重要挑战。

常用场景

经典使用场景

在基因组学领域，精准评估单核苷酸多态性（SNP）的功能影响是理解遗传变异与表型关联的核心挑战。GPN-MSA数据集通过提供覆盖人类基因组约90亿个可能SNP的预测分数，为研究人员提供了一个标准化的参考资源。其经典使用场景在于利用这些预计算的分数，快速筛选和优先排序具有潜在功能影响的变异，特别是在全基因组关联研究（GWAS）中识别致病性位点，从而加速从遗传变异到生物学机制的解析过程。

实际应用

在临床与转化医学实践中，该数据集展现出重要的应用价值。遗传咨询和疾病诊断常常需要评估患者基因组中特定变异的意义。利用GPN-MSA分数，临床工作者可以辅助判断新发现变异（特别是意义未明变异）的致病可能性，为精准医疗决策提供依据。此外，在药物基因组学中，该数据可用于研究影响药物代谢或反应的遗传因素，助力个性化用药方案的开发，将基础基因组学发现转化为切实的临床实践工具。

衍生相关工作

围绕GPN-MSA数据集，已衍生出一系列重要的相关研究工作。其核心模型与方法学本身已成为变异效应预测领域的一个基准。后续研究常将其预测结果与其他工具（如CADD、EVE）进行系统性比较与整合，以提升预测的稳健性。更有工作致力于将这些分数与多维组学数据（如染色质可及性、表观遗传标记）相结合，构建更复杂的疾病风险预测模型。这些衍生工作共同推动了计算模型在解读非编码基因组和复杂疾病遗传基础方面的深入应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集