studies

Hugging Face2026-03-30 更新2026-03-31 收录

全基因组关联分析

生物医学元数据

数据链接：

https://huggingface.co/datasets/gwascatalog/studies 数据链接链接失效反馈

官方服务：

资源简介：

该数据集包含来自NHGRI-EBI GWAS Catalog的研究级别元数据，这是一个手动整理的已发表全基因组关联研究（GWAS）的存储库。每条记录对应GWAS Catalog中一个单独的GWAS出版物或研究条目，描述了研究本身的信息，包括出版物元数据、样本描述、基因分型平台、研究的性状以及可用汇总统计信息。与GWAS Associations数据集不同，后者代表单个SNP-性状关联，而本数据集关注的是研究层面的元数据。数据集适用于GWAS出版物的文献计量分析、GWAS研究设计的荟萃分析、队列组成和群体多样性分析、GWAS中使用的基因分型技术探索以及研究元数据与关联数据集的链接等研究任务。数据集以表格形式呈现，每行代表GWAS Catalog中的一个GWAS研究条目，包含如添加到目录的日期、PubMed标识符、第一作者、发表日期、期刊、研究标题、疾病/性状、初始样本大小、复制样本大小、基因分型平台、关联计数、映射性状、研究登录号、基因分型技术、队列、完整汇总统计信息可用性等字段。数据集通过自动和手动结合的方式进行整理，使用标准化词汇和标识符进行规范化，并经过内部质量控制。需要注意的是，GWAS研究存在群体偏差、发表偏差和研究异质性等局限性。

创建时间：

2026-03-27

原始信息汇总

GWAS Catalog Studies 数据集概述

数据集描述

该数据集包含来自NHGRI-EBI GWAS Catalog的研究级别元数据，这是一个手动管理的已发表全基因组关联研究（GWAS）知识库。每条记录对应GWAS目录中管理的一个GWAS出版物或研究条目。与代表单个SNP-性状关联的GWAS Associations数据集不同，此数据集描述研究本身，包括出版物元数据、样本描述、基因分型平台、研究的性状以及可用汇总统计信息。GWAS目录包含所有GWAS研究，包括那些未报告任何显著关联的研究，因此某些研究可能在/associations数据集中没有对应的关联记录。

数据集摘要

任务类别：基因组学、生物医学元数据分析
数据类型：表格型
主要领域：全基因组关联研究（GWAS）
观察单位：GWAS研究/出版物
来源：经管理的文献数据库

典型用途包括：

将GWAS研究映射到性状和队列
分析样本量和人群代表性
将研究元数据与变异-性状关联记录关联
识别具有可用汇总统计信息的研究
研究基因分型平台的技术趋势

数据集结构

每行代表GWAS目录中的一个GWAS研究条目。

列说明：

列名	描述
DATE ADDED TO CATALOG	研究被添加到GWAS目录的日期。
PUBMEDID	报告该研究的出版物的PubMed标识符。
FIRST AUTHOR	出版物第一作者的姓氏和首字母。
DATE	出版日期（如可用，则为在线/电子出版日期）。
JOURNAL	研究发表的期刊缩写名称。
LINK	链接到PubMed中出版物记录的URL。
STUDY	报告GWAS的出版物标题。
DISEASE/TRAIT	研究中调查的疾病或性状。
INITIAL SAMPLE SIZE	GWAS第1阶段发现队列中包含的个体总数。
REPLICATION SAMPLE SIZE	用于验证关联的复制队列中包含的个体总数。
PLATFORM (SNPS PASSING QC)	经过SNP质量控制过滤后，在第1阶段GWAS中使用的基因分型平台。
ASSOCIATION COUNT	该研究在GWAS目录中管理的SNP-性状关联数量。
MAPPED_TRAIT	映射到研究表型的标准化实验因子本体论（EFO）性状。
MAPPED_TRAIT_URI	对应映射的实验因子本体论性状的URI标识符。
STUDY ACCESSION	GWAS目录中分配给研究的唯一登录标识符（例如，GCST标识符）。
GENOTYPING TECHNOLOGY	研究中使用的基因分型技术，包括适用的阵列类型（例如，Immunochip，外显子阵列）。
COHORT	研究中包含的发现阶段队列；如果适用，可能列出多个队列。
FULL SUMMARY STATISTICS	布尔指示符，指定该研究是否有全基因组汇总统计信息可用。
SUMMARY STATS LOCATION	可以访问或下载完整汇总统计信息的存储库或位置。
GxE	指示该研究是否包含全基因组基因型-环境相互作用分析。

管理流程

GWAS目录通过自动和手动流程相结合的方式进行管理。

文献识别：通过文献检索和作者提交来识别描述全基因组关联研究的出版物。
手动管理：专家管理员审查出版物并提取关键信息，包括变异标识符、相关性状或疾病、统计显著性指标、效应大小和样本描述。
标准化：尽可能使用标准化词汇表和标识符对提取的数据进行规范化，包括来自实验因子本体论（EFO）的受控性状术语、基因组坐标、基因标识符和标准化祖先标签框架。
注释：使用额外的基因组信息对变异进行注释，例如映射基因、变异背景和与附近基因的基因组距离。
质量控制：管理的记录经过内部质量检查，以确保记录间的一致性、正确的变异标识符和有效的基因组注释。

该Hugging Face数据集镜像了GWAS Catalog于2026-03-17发布的表格研究记录。

偏差、局限性与人群代表性

全基因组关联研究存在一些影响使用此数据集进行分析的局限性。

人群偏差：历史上很大一部分GWAS研究是在遗传上与欧洲参考人群相似的个体中进行的。遗传关联可能无法跨人群推广，等位基因频率在不同祖先之间可能存在显著差异，效应大小可能因人群而异。
发表偏差：由于目录源自已发表的研究，它可能反映了统计显著结果的过度代表、零结果的代表不足以及对经常研究的性状的偏向。
研究异质性：GWAS研究在样本量、队列组成、表型定义、基因分型平台和统计分析方法方面存在显著差异，这些因素可能影响研究间的可比性。

许可

NHGRI-EBI GWAS Catalog及其所有内容均可在EMBL-EBI服务通用使用条款下获取。除非另有说明，汇总统计信息在CC0许可下提供。

引用

如果您在研究中使用此数据集，请引用GWAS Catalog出版物： Maria Cerezo et al. The NHGRI-EBI GWAS Catalog: standards for reusability, sustainability and diversity. Nucleic Acids Research, 2025.

搜集汇总

数据集介绍

构建方式

在基因组学领域，GWAS Catalog Studies数据集的构建体现了严谨的科学数据管理流程。该数据集通过自动化与人工协同的策展机制，系统性地从已发表的基因组关联研究文献中提取元数据。首先，通过文献检索与作者提交两种途径识别相关研究；随后，专业策展人员手动审阅每篇文献，提取关键信息如变异标识符、关联性状、统计显著性指标等；接着，利用标准化词汇表（如实验因子本体EFO）对提取的数据进行归一化处理，确保术语一致性；最后，经过内部质量检查，保障记录的准确性与完整性，从而形成结构化的研究级元数据集合。

特点

该数据集的核心特点在于其作为GWAS研究元数据的权威汇总，以研究为基本单元，全面涵盖出版物信息、样本描述、基因分型平台及性状调查等维度。与专注于SNP-性状关联的数据集不同，它包含了所有GWAS研究，即使未报告显著关联的研究亦被收录，确保了数据的完整性。数据集采用表格化结构，字段设计精细，例如包含标准化性状映射、样本规模、关联计数及全基因组摘要统计可用性指示符，便于用户进行文献计量分析、研究设计比较或群体多样性探索，为基因组关联研究的元分析提供了坚实基础。

使用方法

利用该数据集时，研究者可将其应用于多种生物信息学工作流。典型用途包括对GWAS出版物进行文献计量分析，以追踪领域发展趋势；通过链接研究元数据与关联数据集，实现从研究设计到具体遗传变异的追溯；分析样本规模与群体代表性，评估研究结果的普适性；识别提供全基因组摘要统计的研究，便于后续的遗传风险评分或功能注释分析。用户需注意数据存在群体偏倚与发表偏倚等局限性，在跨群体应用或比较异质性研究时应保持审慎态度。

背景与挑战

背景概述

基因组学领域的研究中，全基因组关联研究（GWAS）已成为揭示复杂性状与遗传变异关联的关键方法。NHGRI-EBI GWAS Catalog作为权威的手动管理知识库，自建立以来持续整合全球范围内的GWAS研究成果，由欧洲生物信息学研究所（EBI）与美国国家人类基因组研究所（NHGRI）共同维护。该数据集聚焦于研究层面的元数据，旨在标准化GWAS研究的出版信息、样本特征、基因分型平台及性状描述，为后续的荟萃分析、技术趋势评估及群体多样性研究提供结构化基础。其核心价值在于促进遗传学数据的可重用性与跨研究比较，推动了精准医学和群体遗传学的发展。

当前挑战

该数据集所应对的领域挑战主要源于GWAS研究固有的复杂性，包括遗传关联的跨群体普适性问题、样本规模与表型定义的异质性，以及统计方法差异导致的结论可比性局限。在构建过程中，挑战体现在大规模文献的手动管理需耗费大量专家资源，确保数据提取的准确性与一致性；同时，标准化过程需依赖本体论（如实验因子本体EFO）对性状术语进行映射，以克服表型描述的不规范性。此外，数据集成还需处理不同研究间的技术平台差异与元数据缺失，以维持知识库的完整性与时效性。

常用场景

经典使用场景

在基因组学领域，GWAS Catalog Studies数据集为研究人员提供了系统化的研究级元数据，其经典使用场景聚焦于对全基因组关联研究（GWAS）文献的计量学分析。通过整合数千项GWAS研究的标准化信息，该数据集支持对研究设计、样本构成及技术平台进行跨研究的比较与趋势探索，为理解GWAS领域的发展脉络提供了结构化数据基础。

衍生相关工作

围绕该数据集衍生的经典工作包括基于其元数据的大规模GWAS荟萃分析框架，如跨研究遗传架构的比较研究；此外，众多工具与数据库利用其标准化表型映射（如EFO本体）构建了可交互查询的知识图谱；在方法学层面，该数据集也催生了针对研究异质性校正与群体多样性评估的统计模型，推动了遗传学数据整合分析的技术进步。

数据集最近研究