five

katielink/dm_alphamissense

收藏
Hugging Face2023-10-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/katielink/dm_alphamissense
下载链接
链接失效反馈
官方服务:
资源简介:
Google DeepMind AlphaMissense数据库包含对人类蛋白质编码基因中所有可能的单核苷酸错义变体的预测,涵盖了hg19和hg38两种基因组坐标。数据集提供了基因级别的平均预测、所有可能的单氨基酸替换预测以及非典型转录本异构体的预测。每个文件包含染色体、基因组位置、参考和替代核苷酸、UniProtKB编号、转录本ID、蛋白质变体、AlphaMissense致病性评分及其分类等信息。数据集的使用受限于CC BY-NC-SA 4.0许可证,仅用于非商业研究。

The Google DeepMind AlphaMissense database contains predictions for all possible single-nucleotide missense variants in human protein-coding genes, covering both hg19 and hg38 genome coordinate systems. The dataset provides gene-level average predictive results, predictions for all possible single-amino-acid substitutions, as well as predictions for atypical transcript isoforms. Each file includes information such as chromosome, genomic position, reference and alternative nucleotides, UniProtKB accession numbers, transcript IDs, protein variants, AlphaMissense pathogenicity scores and their corresponding classifications. The usage of this dataset is governed by the CC BY-NC-SA 4.0 license, and it is only allowed for non-commercial research purposes.
提供机构:
katielink
原始信息汇总

Google DeepMind AlphaMissense 数据库

文件描述

  • AlphaMissense_hg19.tsv.gz, AlphaMissense_hg38.tsv.gz: 包含所有可能的单核苷酸错义变异(71M)的预测,来自19k个人类蛋白质编码基因(规范转录本),适用于hg19和hg38坐标。这些文件按基因组坐标排序。
  • AlphaMissense_gene_hg19.tsv.gz, AlphaMissense_gene_hg38.tsv.gz: 基因水平的平均预测,通过对转录本(规范转录本)中所有可能的错义变异的alphamissense_pathogenicity取平均值计算得出。
  • AlphaMissense_aa_substitutions.tsv.gz: 包含所有可能的单氨基酸替换的预测,涉及20k个UniProt规范同工型(216M蛋白质变异)。这些是单核苷酸错义变异引起的氨基酸替换的超集。该文件使用UniProt访问号,没有基因组坐标。
  • AlphaMissense_isoforms_hg38.tsv.gz: 包含60k个非规范转录本同工型的所有可能错义变异的预测(hg38,GENCODE V32)。该文件有transcript_id但没有UniProt访问号。非规范同工型的预测未经过充分评估,应谨慎使用。该文件按基因组坐标排序。
  • AlphaMissense_isoforms_aa_substitutions.tsv.gz: 包含60k个非规范转录本同工型的所有可能单氨基酸替换的预测(GENCODE V32)。这些是单核苷酸错义变异引起的氨基酸替换的超集。该文件有transcript_id但没有UniProt访问号。

所有转录本注释基于GENCODE V27(hg19)或V32(hg38)。

列描述

  • CHROM: 染色体,格式为chr<N>,其中N为[1-22, X, Y, M]。
  • POS: 基因组位置(1-based)。
  • REF: 参考核苷酸(GRCh38.p13 for hg38, GRCh37.p13 for hg19)。
  • ALT: 替代核苷酸。
  • genome: 基因组构建,hg38或hg19。
  • uniprot_id: 蛋白质的UniProtKB访问号,其中变异引起单氨基酸替换(UniProt release 2021_02)。
  • transcript_id: GENCODE V27(hg19)或V32(hg38)的Ensembl转录本ID。
  • protein_variant: 由替代等位基因引起的氨基酸变化,格式为<参考氨基酸><POS_aa><替代氨基酸>(例如V2L)。POS_aa是蛋白质氨基酸序列中的1-based位置。
  • am_pathogenicity: 校准的AlphaMissense致病性分数(范围在0到1之间),可以解释为变异被预测为临床致病性的概率。
  • am_class: 将protein_variant分类为三个离散类别之一:likely_benign、likely_pathogenic或ambiguous。这些是根据以下阈值得出的:likely_benign如果alphamissense_pathogenicity < 0.34;likely_pathogenic如果alphamissense_pathogenicity > 0.564;否则为ambiguous。
  • mean_am_pathogenicity: 每个转录本所有错义变异的alphamissense_pathogenicity的平均值。

引用/许可和免责声明

AlphaMissense数据库版权(2023)DeepMind Technologies Limited。所有预测仅用于非商业研究用途,遵循CC BY-NC-SA许可

研究人员如对尚未提供的预测感兴趣,且用于非商业用途,可发送意向表达至alphamissense@google.com

AlphaMissense数据库和其他信息仅用于理论建模,使用时应谨慎。提供的信息“按原样”提供,不提供任何明示或暗示的保证。明确声明,不保证使用信息不会侵犯任何第三方的权利。提供的信息不旨在替代专业医疗建议、诊断或治疗,也不构成医疗或其他专业建议。AlphaMissense数据库中的预测仅为预测,具有不同程度的置信度,应谨慎解释。

引用

如果您在研究中使用此资源,请引用以下出版物: “Accurate proteome-wide missense variant effect prediction with AlphaMissense” Jun Cheng, Guido Novati, Joshua Pan, Clare Bycroft, Akvilė Žemgulytė, Taylor Applebaum, Alexander Pritzel, Lai Hong Wong, Michal Zielinski, Tobias Sargeant, Rosalia G. Schneider, Andrew W. Senior, John Jumper, Demis Hassabis, Pushmeet Kohli, Žiga Avsec

使用AlphaMissense数据库需遵守Google Cloud Platform服务条款

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由DeepMind团队构建,旨在通过AlphaMissense模型预测人类蛋白质编码基因中所有可能的单核苷酸错义突变体的致病性。数据集包含两种基因组版本(hg19和hg38)的预测结果,通过分析19k个蛋白质编码基因的转录本,计算出超过7100万个单核苷酸错义突变的致病性分数,以及对应的基因水平平均致病性分数。
特点
数据集的特点在于其广泛的覆盖范围,包括所有可能的单氨基酸取代,以及非标准转录本上的致病性预测。AlphaMissense的预测结果具有校准的致病性分数,可用于评估突变的临床致病概率,并按照不同的阈值分为三个类别:很可能良性、很可能致病和不确定。所有转录本注释均基于GENCODE的版本,确保了数据的一致性和准确性。
使用方法
用户可以通过Hugging Face的接口访问该数据集,选择不同的配置文件以适应不同的基因组版本。数据文件采用bgzip格式压缩,可以通过相应的工具进行解压和读取。在使用数据集时,需遵守Creative Commons BY-NC-SA 4.0许可证,且仅限于非商业性研究目的。对于数据集的使用,建议用户仔细解读预测结果,并结合专业医疗知识进行谨慎应用。
背景与挑战
背景概述
AlphaMissense数据库是由DeepMind公司开发的一个预测人类蛋白质编码基因中单核苷酸错义突变影响的数据库。该数据库的创建可追溯至2023年,由DeepMind Technologies Limited版权所有。该研究团队的核心问题是准确预测蛋白质编码基因中错义突变对蛋白质功能的影响,其研究成果对遗传病诊断、药物开发等领域产生了深远影响。数据库的构建基于GENCODE的转录本注释,并提供了71M个可能的单核苷酸错义突变预测,涵盖了19k个蛋白质编码基因。研究论文发表在《Science》上,为相关领域的研究提供了宝贵的数据资源。
当前挑战
该数据集在构建过程中面临的挑战主要包括:一是处理庞大的数据量,涵盖了人类基因组的全部单核苷酸错义突变;二是确保预测模型的准确性和可靠性,这对于理解突变对蛋白质功能的影响至关重要;三是基因注释和蛋白质变异的标准化,以及非标准转录本的处理和校验。此外,数据集在解决领域问题上也面临挑战,例如,如何将预测结果转化为临床实践中的具体应用,以及如何处理和解释模型预测中的不确定性。
常用场景
经典使用场景
在探索人类遗传变异对蛋白质功能影响的研究领域中,katielink/dm_alphamissense数据集提供了一个重要的资源。该数据集的经典使用场景在于,它允许研究人员通过预测单个核苷酸变异对蛋白质编码基因的影响,来评估可能的遗传疾病风险。这些预测基于AlphaMissense模型,能够对人类蛋白质组的所有可能的单个氨基酸错义变异进行量化,进而为理解基因变异与疾病之间的关联提供分子层面的见解。
实际应用
在实际应用中,katielink/dm_alphamissense数据集被广泛应用于遗传病的研究和诊断。医生和研究人员可以利用这些预测结果来辅助临床决策,评估患者遗传变异的潜在致病性。此外,该数据集也为药物开发提供了重要信息,有助于设计针对特定基因变异的个性化治疗方案。
衍生相关工作
基于katielink/dm_alphamissense数据集的研究已经衍生出了一系列相关工作,包括对预测模型的改进、对特定疾病相关基因变异的深入研究,以及将预测结果整合到临床决策支持系统中。这些衍生工作不仅推动了遗传学研究的进展,也为精准医疗的实践提供了科学依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作