five

1000 Genomes Project dataset

收藏
github2025-12-04 更新2025-12-05 收录
下载链接:
https://github.com/dnaerys/onekgp-mcp
下载链接
链接失效反馈
官方服务:
资源简介:
1000 Genomes Project数据集由纽约基因组中心测序并与GRCh38对齐,包含2504个不相关的第三阶段面板样本和698个与2504面板样本相关的额外样本,总计3202个样本(1598名男性,1604名女性)。数据集提供了对138,044,724个独特变体和约4420亿个个体基因型的实时访问,支持基于坐标、注释、合子性的变体、样本和基因型选择,以及通过VEP、ClinVar、gnomAD AF和AlphaMissense注释进行过滤。

The 1000 Genomes Project dataset was sequenced by the New York Genome Center and aligned to GRCh38. It includes 2504 unrelated samples from the Phase 3 panel, plus 698 additional samples associated with the 2504 panel samples, totaling 3202 samples (1598 males and 1604 females). The dataset provides real-time access to 138,044,724 unique variants and approximately 442 billion individual genotypes, and supports variant, sample, and genotype selection based on coordinates, annotations, and variant zygosity, as well as filtering via annotations from VEP, ClinVar, gnomAD AF, and AlphaMissense.
创建时间:
2025-11-23
原始信息汇总

1000 Genomes Project 数据集 MCP 服务器概述

数据集基本信息

  • 数据集名称:1000 Genomes Project dataset
  • 数据来源:由 New York Genome Center 进行测序并比对至 GRCh38
  • 样本构成
    • 包含 2504 个来自第三阶段 panel 的无亲缘关系样本
    • 额外包含 698 个与上述 2504 个样本相关的样本
    • 总计 3202 个样本(1598 名男性,1604 名女性)
  • 数据详情链接:https://www.internationalgenome.org/data-portal/data-collection/30x-grch38

数据规模与内容

  • 变异数量:提供对 138,044,724 个独特变异体的实时访问
  • 基因型数量:涵盖约 4420 亿个来自 3202 个样本的个体基因型

核心功能特性

  • 支持基于坐标、注释、接合性进行变异体、样本和基因型选择
  • 支持基于以下注释进行过滤:
    • VEP
    • ClinVar
    • gnomAD AF
    • AlphaMissense
  • 支持基于遗传模型进行过滤:
    • 新发突变
    • 杂合显性
    • 纯合隐性

数据访问与服务

  • 托管平台:数据在线托管于 Dnaerys variant store (https://dnaerys.org/)
  • 访问方式:通过 MCP(Model Context Protocol)服务器提供自然语言访问
  • 远程服务地址
    • http://db.dnaerys.org:80/mcp
    • https://db.dnaerys.org:443/mcp
  • 服务架构:MCP 服务器作为 Java EE 服务实现,通过 gRPC API 调用公共 Dnaerys variant store 服务以访问 1000 Genomes 数据集
  • 传输协议:支持 Streamable HTTP、HTTP/SSE 和 STDIO 传输

工具与扩展

  • 可用工具:提供 30 种工具及其参数描述
  • 工具描述文件:https://github.com/dnaerys/onekgp-mcp/blob/master/src/main/java/org/dnaerys/mcp/OneKGPMCPServer.java

本地部署与使用

  • 运行环境:需要 JRE 21
  • 构建方式:使用 Maven 构建为包含所有依赖的单一 über-jar 文件 (target/onekgp-mcp-runner.jar)
  • 客户端集成:支持与 Claude Desktop 等 MCP 客户端集成

许可证

  • 许可证类型:Apache License 2.0
  • 许可证文件:https://github.com/dnaerys/onekgp-mcp/blob/master/LICENSE
搜集汇总
数据集介绍
main_image_url
构建方式
在人类基因组学研究领域,千人基因组计划数据集作为一项里程碑式的资源,其构建过程体现了严谨的科学设计。该数据集由纽约基因组中心负责测序与比对,以GRCh38为参考基因组,涵盖了来自第三阶段面板的2504个无亲缘关系样本,并额外纳入了与这些样本相关的698个样本,总计3202个样本,其中包括1598名男性和1604名女性,确保了人群遗传多样性的广泛覆盖。
特点
该数据集的核心特点在于其庞大的数据规模与实时访问能力,包含超过1.38亿个独特变异和约4420亿个个体基因型。研究人员能够基于坐标、注释、合子状态进行变异、样本和基因型的选择,并支持通过VEP、ClinVar、gnomAD等频率以及AlphaMissense注释进行过滤,同时还可依据遗传模型进行筛选,为复杂遗传分析提供了高度灵活的数据支持。
使用方法
在应用层面,数据集通过MCP服务器提供自然语言访问接口,支持Streamable HTTP、HTTP/SSE及STDIO等多种传输协议。用户可通过配置Claude Desktop等客户端,直接使用Java命令运行本地jar文件,或连接至远程服务端点,实现对海量遗传变异数据的实时查询与复杂分析,例如在特定基因中探索修饰变异或评估临床相关性,极大提升了基因组学研究的效率与深度。
背景与挑战
背景概述
千人基因组计划数据集作为人类遗传变异研究的基石,由国际千人基因组计划联盟于2008年发起,汇集了全球多个顶尖研究机构的共同努力。该计划的核心目标在于构建一个详尽的人类遗传变异图谱,通过对全球不同人群的大规模基因组测序,揭示遗传变异的分布模式与群体遗传结构。数据集涵盖了超过三千个样本的完整基因组信息,为疾病关联研究、群体遗传学及进化生物学提供了不可或缺的参考资源,极大地推动了精准医学和复杂疾病遗传基础的理解。
当前挑战
该数据集致力于解决人类遗传变异全面测绘与功能注释的核心挑战,其构建过程面临多重技术难题。海量数据的生成与存储要求极高的计算资源与高效的数据管理架构,而样本的全球多样性收集则需协调复杂的伦理规范与数据共享协议。在数据分析层面,区分罕见变异与测序噪音、准确注释变异的临床意义,以及整合多组学信息以实现生物学解读,均是持续存在的科学障碍。这些挑战共同构成了利用该数据集深化人类遗传学认识的關鍵瓶颈。
常用场景
经典使用场景
在群体遗传学与基因组学领域,千人基因组计划数据集作为全球范围内人类遗传变异图谱的基石,其经典使用场景在于为研究者提供大规模、高分辨率的遗传变异参考。该数据集通过整合来自多个种群的3202个样本,涵盖超过1.38亿个独特变异位点,使得科学家能够深入探索人类基因组的结构变异、单核苷酸多态性分布以及种群特异性等位基因频率。这种全面的变异资源为识别与复杂疾病相关的遗传标记、解析人类进化历史提供了不可或缺的数据支持。
衍生相关工作
基于该数据集衍生的经典工作包括多个大型国际合作项目与计算方法创新。例如,gnomAD数据库在整合千人基因组数据基础上,进一步扩展了全球人群的遗传变异目录;同时,诸如VEP、ANNOVAR等变异注释工具均将其作为核心参考数据源。这些衍生工作不仅深化了人类遗传变异的注释与解读,还催生了新一代群体遗传学分析框架,持续推动基因组医学的进步。
数据集最近研究
最新研究方向
在人类基因组学领域,千人基因组计划数据集作为全球人群遗传变异的重要参考,正推动着精准医学和复杂疾病遗传机制的前沿探索。当前研究聚焦于利用该数据集进行大规模变异筛选与功能注释,特别是在心血管疾病相关基因中,通过分析催化残基或配体结合口袋附近的变异缺失模式,揭示关键功能区域的自然选择约束。同时,结合多智能体研究系统,科学家们能够高效识别与已知致病等位基因共存的潜在修饰变异,这些变异可能影响疾病的表现度或外显率,为理解遗传背景对疾病风险的调控提供了新视角。此外,数据集在罕见变异临床优先级排序、寡基因相互作用模式挖掘以及意外耐受性变异发现等方面的应用,正逐步深化我们对人类遗传多样性与健康关联的认知,为个性化医疗和药物靶点开发奠定数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作