1000 Genomes Project dataset
收藏github2025-12-07 更新2025-12-08 收录
下载链接:
https://github.com/dnaerys/onekgpd-mcp
下载链接
链接失效反馈官方服务:
资源简介:
1000 Genomes Project数据集包含来自第三阶段面板的2504个不相关样本,以及额外的698个与2504面板中样本相关的样本,总计3202个样本(1598名男性,1604名女性)。数据集已对GRCh38进行测序和比对。关键特征包括实时访问138,044,724个独特变体和约4420亿个个体基因型,支持基于坐标、注释、合子性的变体、样本和基因型选择,以及通过VEP、ClinVar、gnomAD AF和AlphaMissense注释进行过滤。
The 1000 Genomes Project dataset includes 2504 unrelated samples from the Phase 3 panel, plus an additional 698 samples related to those in the 2504 panel cohort, resulting in a total of 3202 samples (1598 males and 1604 females). The dataset has been sequenced and aligned against GRCh38. Key features include real-time access to 138,044,724 unique variants and approximately 442 billion individual genotypes, supporting variant, sample and genotype selection based on genomic coordinates, annotations and zygosity, as well as filtering via annotations from VEP, ClinVar, gnomAD AF and AlphaMissense.
创建时间:
2025-11-23
原始信息汇总
1000 Genomes Project 数据集 MCP 服务器概述
数据集基本信息
- 数据集名称:1000 Genomes Project dataset
- 数据来源:由 New York Genome Center 测序并比对至 GRCh38
- 样本构成:
- 2504 个来自第三阶段面板的无关联样本
- 额外 698 个与上述 2504 个面板样本相关的样本
- 总计 3202 个样本(1598 名男性,1604 名女性)
- 数据集详情链接:https://www.internationalgenome.org/data-portal/data-collection/30x-grch38
数据规模与访问
- 变异数量:包含 138,044,724 个独特变异
- 基因型数量:约 4420 亿个个体基因型(来自 3202 个样本)
- 访问方式:通过 MCP(Model Context Protocol)服务器提供自然语言访问
- 数据托管:数据托管于在线的 Dnaerys 变异存储库(https://dnaerys.org/)
- 访问特性:实时访问
核心功能特性
- 支持基于坐标、注释、合子性进行变异、样本和基因型选择
- 支持通过以下注释进行过滤:
- VEP
- ClinVar
- gnomAD AF
- AlphaMissense
- 支持基于遗传模型进行过滤:
- 新发突变
- 杂合子显性
- 纯合子隐性
部署与服务访问
- 远程 MCP 服务(通过 Streamable HTTP 在线提供):
- http://db.dnaerys.org:80/mcp
- https://db.dnaerys.org:443/mcp
- 本地构建:支持通过 stdio 传输在本地运行,具体方法见安装说明
技术架构
- 服务器实现:作为 Java EE 服务实现
- 数据访问:通过 gRPC 调用公共 Dnaerys 变异存储服务来访问 1KGP 数据集
- 实现基础:基于 Quarkus MCP Server(https://docs.quarkiverse.io/quarkus-mcp-server/dev/)
- 支持的传输协议:
- Streamable HTTP
- HTTP/SSE
- STDIO
工具与资源
- 可用工具:提供 30 种工具及其参数描述
- 工具描述文件位置:https://github.com/dnaerys/onekgpd-mcp/blob/master/src/main/java/org/dnaerys/mcp/OneKGPMCPServer.java
- 许可证:Apache License 2.0(许可证文件:https://github.com/dnaerys/onekgpd-mcp/blob/master/LICENSE)
搜集汇总
数据集介绍

构建方式
在人类基因组学研究领域,千人基因组计划数据集作为一项里程碑式的资源,其构建过程体现了大规模国际合作与先进测序技术的融合。该数据集由纽约基因组中心负责测序与比对,采用GRCh38参考基因组进行序列校准。核心样本集包含2504个无亲缘关系的个体,这些样本构成了第三阶段的主要面板。在此基础上,进一步纳入了698个与核心面板存在亲缘关系的样本,使得总样本量达到3202个,其中男性1598名,女性1604名。这种设计既保证了人群遗传多样性的广泛覆盖,又为家族遗传研究提供了宝贵材料。
特点
该数据集的核心特征在于其前所未有的规模与实时访问能力。它囊括了超过1.38亿个独特变异位点和约4420亿个个体基因型,为探索人类遗传变异谱提供了极为丰富的素材。数据访问机制支持基于坐标、注释信息和合子状态的精准筛选,用户能够灵活过滤变异、样本和基因型。更值得关注的是,数据集整合了VEP、ClinVar、gnomAD等权威注释资源,并支持AlphaMissense预测结果的过滤。此外,系统还提供了基于遗传模式(如新发突变、杂合显性、纯合隐性)的筛选功能,为疾病遗传学研究开辟了新的分析维度。
使用方法
在应用层面,该数据集通过MCP服务器架构提供了多样化的访问方式。用户可通过Streamable HTTP或HTTP/SSE协议远程连接在线服务,也可在本地环境中通过STDIO传输构建私有实例。具体实施时,需要基于Quarkus MCP服务器框架进行部署,利用gRPC协议调用公共Dnaerys变异存储服务。对于本地化使用,用户需通过Maven工具构建包含所有依赖的über-jar包,并在JRE 21环境中运行。数据集与Claude Desktop等工具的集成配置简便,只需在配置文件中指定Java执行路径即可实现无缝对接。这种灵活的服务架构使得研究人员能够根据实际需求选择最适合的访问模式,高效开展各类遗传分析任务。
背景与挑战
背景概述
千人基因组计划数据集作为国际基因组学领域的里程碑项目,于2008年正式启动,由国际千人基因组计划联盟主导推进。该项目汇聚了全球顶尖研究机构的智慧,旨在构建详尽的人类遗传变异图谱,其核心研究问题聚焦于解析全球人群的遗传多样性模式与结构。通过对全球26个群体超过3200个样本的高深度测序,该数据集系统收录了逾1.38亿个独特变异位点,为群体遗传学、疾病关联研究和进化生物学提供了前所未有的数据基石。其发布深刻改变了人类遗传学研究范式,使大规模变异频率分析成为可能,为精准医学时代的到来奠定了数据基础。
当前挑战
该数据集致力于解决人类遗传变异系统性鉴定的核心挑战,其首要难题在于如何从海量测序数据中准确识别低频和罕见变异,这些变异往往具有重要的生物学意义但检测信噪比极低。在构建过程中,研究团队面临多重技术壁垒:跨测序平台数据的标准化整合、不同人群样本的伦理采集与质量控制、以及超大规模基因组数据的存储与计算优化。此外,将原始序列比对至GRCh38参考基因组时,结构变异检测的准确性与复杂基因组区域的注释完整性始终是亟待突破的技术瓶颈。如何建立高效的数据访问接口以支持实时多维检索,同样构成了工程实现上的显著挑战。
常用场景
经典使用场景
在群体遗传学与基因组学研究中,千人基因组计划数据集常被用作全球人群遗传变异的参考基准。研究者通过分析该数据集中的单核苷酸多态性、插入缺失等变异信息,能够绘制人类基因组的结构图谱,揭示不同地理人群间的遗传差异与演化历史。例如,在探索复杂疾病遗传基础时,该数据集为全基因组关联分析提供了关键的对照群体数据,助力识别与疾病风险相关的等位基因频率分布模式。
实际应用
在临床基因组学实践中,千人基因组计划数据集已成为变异解读的关键工具。诊断实验室常利用其等位基因频率数据过滤良性变异,辅助遗传病致病突变的鉴定。制药企业在药物靶点发现阶段,通过分析该数据集中的群体特异性变异分布,评估药物应答差异的遗传基础。公共卫生领域则借助其群体结构数据,优化疾病风险预测模型在不同人群中的适用性。
衍生相关工作
基于该数据集衍生的经典工作包括gnomAD等全球变异频率数据库的构建,其采用相似的群体抽样策略扩展了变异频谱的覆盖范围。国际癌症基因组联盟等大型项目也借鉴其数据标准,建立了癌症特异性的体细胞突变图谱。在方法学层面,该数据集催生了如BOLT-LMM等高效混合模型关联分析工具的发展,显著提升了复杂性状遗传架构解析的统计效能。
以上内容由遇见数据集搜集并总结生成



