samples

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/gwascatalog/samples

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自NHGRI-EBI GWAS Catalog的样本级元数据，描述了基因组关联研究（GWAS）中包括的个体信息。每条记录代表GWAS研究中使用的群体样本，包括样本大小、祖先类别标签和地理来源等信息。与专注于研究级元数据的GWAS Catalog Studies数据集和捕获SNP-性状关联的Associations数据集不同，Samples数据集详细描述了GWAS分析所基于的个体。该数据集特别适用于理解GWAS研究中的遗传祖先代表性，支持分析群体多样性、招募地理分布和研究间的祖先标签分布。典型研究用途包括将样本元数据与GWAS研究结果关联、理解GWAS的统计功效、检查GWAS队列中的祖先代表性、分析基因组研究中的招募地理模式、研究GWAS数据集间的群体多样性以及评估遗传研究中的祖先不平衡或代表性不足。数据集采用表格形式，每行代表GWAS研究中使用的特定样本群体，包含研究登录号、PubMed ID、第一作者、出版日期、样本描述、个体数量、广泛祖先类别、起源国家、招募国家和额外祖先描述等字段。

创建时间：

2026-03-27

原始信息汇总

GWAS Catalog Samples 数据集概述

数据集描述

此数据集包含来自NHGRI-EBI GWAS Catalog的样本级别元数据，描述了全基因组关联研究（GWAS）中包含的个体信息。每条记录代表GWAS研究中使用的一个人群样本，包含样本大小、祖先类别标签和地理起源等信息。该数据集提供了对已发表GWAS结果有贡献的参与者群体的结构化描述。

数据集摘要

任务类别：基因组学、生物医学元数据分析
数据类型：表格型
主要领域：全基因组关联研究（GWAS）
观察单位：GWAS样本群体
来源：经过整理的文献数据库

典型用途

将样本元数据与GWAS研究结果相关联
理解GWAS的统计效力
分析GWAS队列的祖先构成
评估基因组研究中的群体多样性
研究GWAS中的招募地理模式和抽样策略

数据集结构

每行代表GWAS研究中使用的特定样本群体，通常对应于发现阶段或复制阶段的队列。一项研究可能包含多个样本条目，代表不同的队列、招募地点或祖先群体。

数据列

列名	描述
STUDY ACCESSION	GWAS Catalog中分配给GWAS研究的登录号标识符（例如GCST标识符）
PUBMEDID	报告GWAS的出版物的PubMed标识符
FIRST AUTHOR	出版物第一作者的姓氏和首字母
DATE	出版日期（优先提供在线/电子出版日期）
INITIAL SAMPLE DESCRIPTION	发现阶段GWAS队列的描述，包括样本大小和祖先信息
REPLICATION SAMPLE DESCRIPTION	用于验证研究中报告关联的复制队列描述
STAGE	样本描述适用的GWAS阶段（例如初始发现阶段或复制阶段）
NUMBER OF INDIVIDUALS	样本群体中包含的个体数量
BROAD ANCESTRAL CATEGORY	分配给样本的高级祖先分类，用于将样本归入更广泛的遗传祖先群体
COUNTRY OF ORIGIN	与样本中个体祖先起源相关的国家
COUNTRY OF RECRUITMENT	为研究招募参与者的国家
ADDITIONAL ANCESTRY DESCRIPTION	为样本群体提供更详细祖先信息的附加描述符

数据整理过程

GWAS Catalog通过自动和手动流程相结合的方式进行整理，包括文献识别、人工整理、标准化、注释和质量控制。

偏差、局限性与群体代表性

使用此数据集进行分析时需注意以下局限：

群体偏差：历史上大部分GWAS研究是在遗传上与欧洲参考群体相似的个体中进行的。遗传关联可能无法跨群体推广，等位基因频率在不同祖先群体间可能存在显著差异，效应大小也可能因群体而异。
发表偏倚：由于目录源自已发表的研究，可能反映了统计学显著发现的过度代表、零结果的代表不足，以及偏向于经常被研究的性状。
研究异质性：GWAS研究在样本大小、队列构成、表型定义、基因分型平台和统计分析方法上存在显著差异，这可能影响研究间的可比性。

许可信息

NHGRI-EBI GWAS Catalog及其所有内容均在EMBL-EBI服务通用使用条款下提供。除非另有说明，摘要统计数据均在CC0许可下提供。

引用信息

若在研究中使用此数据集，请引用GWAS Catalog出版物： Maria Cerezo et al. The NHGRI-EBI GWAS Catalog: standards for reusability, sustainability and diversity. Nucleic Acids Research, 2025.

搜集汇总

数据集介绍

构建方式

在基因组学研究的广阔领域中，GWAS Catalog Samples数据集的构建体现了严谨的文献挖掘与标准化处理流程。该数据集源自NHGRI-EBI GWAS Catalog，其构建始于对全基因组关联研究（GWAS）相关科学文献的系统性识别，既包括文献检索，也接纳作者主动提交。随后，专业的数据策展人员对入选文献进行人工审阅，精确提取样本层面的关键元数据，如样本规模、祖先类别标签及地理起源等信息。为确保数据的一致性与可重用性，提取的信息通过标准化词汇表（如实验因子本体EFO）和统一的祖先标签框架进行规范化处理，并辅以内部质量检查，最终形成结构化的样本级元数据集合。

使用方法

在生物医学信息学与群体遗传学研究中，该数据集的应用路径清晰而多元。研究者可将其与GWAS Catalog中的研究数据集和关联数据集进行关联整合，从而构建从样本特征到统计发现的全链条分析视角。典型应用场景包括评估特定GWAS的统计效力、剖析GWAS队列的祖先构成、探索基因组学研究中的地理招募模式，以及评估遗传研究中不同祖先群体的代表性与潜在失衡。用户通过访问数据集的表格结构，可以基于研究登录号、PubMed ID或祖先类别等关键字段进行筛选与聚合分析，进而支撑关于研究可重复性、结果普适性及群体健康公平性的科学探讨。

背景与挑战

背景概述

基因组学领域的研究中，全基因组关联研究（GWAS）已成为揭示遗传变异与复杂性状关联的关键手段。由欧洲生物信息学研究所（EBI）与美国国家人类基因组研究所（NHGRI）联合维护的GWAS Catalog，自建立以来持续整合全球范围内的GWAS研究成果，为遗传学、生物医学及精准医学提供了核心数据资源。该Catalog中的样本数据集（GWAS Catalog Samples）专注于收录研究参与者的元数据，包括样本规模、祖先类别及地理来源等信息，旨在系统化描述GWAS研究中的个体群体特征。这一数据集的构建，不仅促进了遗传祖先代表性分析，还为评估研究统计效力、探索人群多样性及招募模式奠定了坚实基础，对推动跨人群遗传研究的公平性与可重复性具有深远影响。

当前挑战

GWAS样本数据集在应用与构建过程中面临多重挑战。在领域问题层面，该数据集旨在支持遗传祖先代表性分析，但现有GWAS研究长期存在显著的人群偏倚，即多数研究基于欧洲血统人群，导致遗传关联结果在其他祖先群体中的普适性受限，可能引发跨人群应用时的误判风险。此外，研究间的异质性，如样本规模、表型定义及分析方法的差异，进一步增加了数据整合与比较的复杂性。在构建过程中，挑战主要源于数据标准化与质量控制：尽管采用自动化与人工结合的方式从文献中提取信息，但样本描述的多样性与术语不一致性，使得祖先标签的统一标注与地理信息的准确映射成为难点；同时，确保数据一致性、验证变异标识符的有效性，以及处理潜在发表偏倚（如显著结果的过度呈现），均对数据集的可靠性与完整性提出了严格要求。

常用场景

经典使用场景

在基因组学与生物医学研究领域，GWAS Catalog Samples数据集为研究者提供了样本层面的元数据，这些数据源自大规模全基因组关联研究。其经典应用场景在于整合样本信息与GWAS研究结果，通过分析样本规模、祖先类别标签及地理起源，评估不同遗传背景人群在GWAS中的代表性。这一过程有助于揭示群体多样性，为后续遗传关联分析提供关键的样本基础，尤其在跨研究比较和统计功效评估中发挥核心作用。

解决学术问题

该数据集有效解决了GWAS研究中长期存在的群体代表性偏差问题。通过标准化祖先标签框架和详细样本描述，研究者能够系统分析不同遗传背景人群在GWAS队列中的分布，识别欧洲以外群体的代表性不足。这不仅促进了遗传关联结果在不同人群中的可推广性评估，还为理解遗传异质性、优化研究设计提供了数据支持，推动了基因组学研究的公平性与多样性。

实际应用

在实际应用中，GWAS Catalog Samples数据集被广泛用于生物医学研究和公共卫生领域。例如，在药物基因组学中，研究者利用样本祖先信息评估药物反应遗传标记的跨人群适用性；在疾病风险预测模型中，该数据帮助校正群体分层偏差，提高模型在不同种族中的准确性。此外，公共卫生机构可借助地理招募模式分析，优化遗传研究招募策略，促进全球健康研究的包容性。

数据集最近研究