associations
收藏Hugging Face2026-03-27 更新2026-03-28 收录
下载链接:
https://huggingface.co/datasets/gwascatalog/associations
下载链接
链接失效反馈官方服务:
资源简介:
GWAS Catalog Associations 数据集包含来自 NHGRI-EBI GWAS Catalog 的经过整理的遗传关联结果。该数据集记录了同行评审研究中报告的 SNP-性状关联,每一行代表一个遗传变异(通常是单核苷酸多态性,SNP)与疾病或性状之间的关联。数据集以表格形式呈现,适用于下游分析、机器学习和基因组学研究工作流。数据集的主要领域是全基因组关联研究(GWAS),观察单位为 SNP-性状关联。典型用途包括基因组风险分析、变异注释流程、表型-基因型关系研究、遗传关联的机器学习以及 GWAS 发现的荟萃分析。数据集结构包括多个列,如日期、PubMed ID、作者、期刊、研究标题、疾病/性状、样本描述、染色体位置、基因信息、统计显著性等。数据集的整理过程包括文献识别、手动整理、标准化、注释和质量控制。该数据集仅包括 GWAS 显著关联,完整的汇总统计信息可从 GWAS Catalog 获取。数据集的使用需遵循 EMBL-EBI 服务的一般使用条款。
The GWAS Catalog Associations dataset contains curated genetic association results sourced from the NHGRI-EBI GWAS Catalog. This dataset documents SNP-trait associations reported in peer-reviewed research, with each row representing an association between a genetic variant (typically a single nucleotide polymorphism, SNP) and a disease or trait. Presented in tabular format, the dataset is suitable for downstream analysis, machine learning, and genomics research workflows. Its primary domain is genome-wide association studies (GWAS), with the observational unit being SNP-trait associations. Typical use cases include genomic risk analysis, variant annotation pipelines, phenotype-genotype relationship research, machine learning for genetic associations, and meta-analyses of GWAS findings. The dataset includes multiple columns such as date, PubMed ID, authors, journal, study title, disease/trait, sample description, chromosomal location, gene information, statistical significance, and others. The dataset curation process involves literature identification, manual curation, standardization, annotation, and quality control. This dataset only includes GWAS-significant associations; complete summary statistics can be obtained from the GWAS Catalog. Usage of the dataset is subject to the general terms of service of EMBL-EBI services.
创建时间:
2026-03-27
搜集汇总
数据集介绍

构建方式
在基因组学领域,大规模遗传关联研究催生了海量数据,亟需系统化整合以揭示基因型与表型间的复杂联系。该数据集通过严谨的混合式策展流程构建而成,首先从已发表的同行评审文献中自动识别并人工筛选出全基因组关联研究。专业策展人员随后细致提取关键信息,包括遗传变异标识符、关联性状、统计显著性指标及效应值等。这些原始数据经过标准化处理,采用受控词汇表与统一标识符进行归一化,并辅以基因组注释,最终形成结构清晰、便于分析的关联记录表格。
特点
作为遗传关联研究领域的权威资源,该数据集的核心特征在于其高度的结构化与标准化。每条记录均代表一个经过验证的SNP-性状关联,涵盖了从变异染色体定位、关联基因、统计显著性到样本描述等全方位元数据。数据集特别整合了实验因子本体论对性状进行标准化映射,增强了跨研究比较的可行性。其设计充分考虑了可重用性,以表格形式呈现,直接支持下游的生物信息学分析、机器学习建模以及基因组风险研究的各类工作流程。
使用方法
在生物医学数据挖掘实践中,该数据集为探索基因与疾病关联提供了坚实基础。研究人员可直接将其导入分析管道,用于基因组风险评分模型的构建、变异功能注释的增强,或作为表型-基因型关系研究的参考数据库。在机器学习应用中,其结构化字段可作为特征用于预测模型训练。进行遗传关联研究的荟萃分析时,该数据集能提供标准化的汇总数据。使用者需注意数据固有的群体代表性偏差,并在应用于非欧洲血统人群时保持审慎。
背景与挑战
背景概述
全基因组关联研究(GWAS)作为解析复杂性状遗传架构的核心范式,自21世纪初兴起以来,已深刻变革了人类遗传学领域。由美国国家人类基因组研究所(NHGRI)与欧洲生物信息学研究所(EBI)联合维护的GWAS Catalog,自2008年创建以来,已成为一个权威的手工策展资源库,系统收录并标准化了已发表GWAS研究中的遗传变异与表型关联。该数据集的核心使命在于整合海量文献中的单核苷酸多态性(SNP)与疾病或性状的关联结果,通过统一的元数据框架,为基因组风险分析、变异注释及基因型-表型关系研究提供结构化数据基础,极大地促进了遗传发现的复用性与跨研究比较。
当前挑战
该数据集致力于解决遗传关联研究中的核心挑战,即从高度异质化的原始文献中提取、标准化并整合海量的遗传关联证据,以支持可靠的二次分析与生物学解释。在构建过程中,策展团队面临多重挑战:其一,文献数据提取依赖人工审阅,需处理研究间在样本规模、基因分型平台、统计方法与表型定义上的显著差异,确保信息准确性与一致性;其二,实现数据的标准化表述尤为复杂,涉及将多样化的性状描述映射至统一的实验因子本体(EFO)术语,并维护遗传变异标识符(如rsID)与基因组坐标的时效性与准确性。此外,数据集本身反映了GWAS领域的固有局限,包括历史上以欧洲血统人群为主的研究所导致的人群代表性偏差,以及因发表偏倚而可能缺失的非显著关联结果,这些因素均可能影响下游分析的普适性与结论的稳健性。
常用场景
经典使用场景
在基因组学与生物医学研究领域,全基因组关联研究(GWAS)已成为揭示复杂性状遗传基础的核心手段。该数据集作为GWAS Catalog的标准化关联记录集合,其经典使用场景在于支持大规模遗传关联的荟萃分析与数据挖掘。研究人员能够利用其结构化数据,系统性地探索单核苷酸多态性(SNP)与疾病或表型之间的统计关联,从而识别潜在的遗传风险位点,并为后续的功能验证研究提供关键线索。
解决学术问题
该数据集有效解决了遗传学研究中关联结果分散、格式不统一所带来的整合难题。通过提供经过人工审阅和标准化的关联记录,它使得跨研究的比较与验证成为可能,显著提升了遗传发现的可重复性与可解释性。其意义在于构建了一个权威、可持续的公共知识库,为理解复杂疾病的遗传架构、推动精准医学的发展奠定了坚实的数据基础,并促进了开放科学原则在生物医学领域的实践。
衍生相关工作
基于该数据集丰富且标准化的信息,已衍生出众多具有影响力的经典研究工作。例如,利用其进行多基因风险评分(PRS)模型的构建与优化,以预测个体对特定疾病的易感性。同时,该数据集常作为训练数据,支撑机器学习模型在遗传关联预测、功能变异优先级排序等任务中的应用。此外,它也是众多大型国际联盟进行跨疾病、跨人群遗传学荟萃分析不可或缺的核心资源。
以上内容由遇见数据集搜集并总结生成



