GDC-QAG-genes-mutations
收藏Hugging Face2025-08-04 更新2025-08-05 收录
下载链接:
https://huggingface.co/datasets/uc-ctds/GDC-QAG-genes-mutations
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含约560万个在各种癌症中观察到的体细胞突变(蛋白质变异),涉及19606个基因。数据集旨在被查询增强生成(GDC)工具使用,通过Genomic Data Commons API的`/ssms`端点抓取得到,由Center for Translational Data Science策划,并采用Apache-2.0许可证开源发布。
创建时间:
2025-07-23
原始信息汇总
数据集卡片:uc-ctds/GDC-QAG-genes-mutations
数据集概述
- 内容:包含各种癌症中观察到的基因和体细胞突变(蛋白质变异)。
- 数据来源:从Genomic Data Commons (GDC)的
/ssms端点抓取。 - 用途:用于运行GDC上的查询增强生成(QAG)工具。
数据集详情
- 数据量:约560万个体细胞突变,涉及n=19606个基因。
- 查询字段:使用
fields=gene_aa_change获取基因和蛋白质变异信息。 - 数据性质:开源数据。
数据集描述
- 维护者:Center for Translational Data Science
- 语言:英语 (en)
- 许可证:apache-2.0
数据集来源
- 代码库:https://huggingface.co/datasets/uc-ctds/GDC-QAG-genes-mutations
- 演示应用:https://huggingface.co/spaces/uc-ctds/GDC-QAG
使用方式
直接使用
- 用途:用于QAG工具,预构建字典以将自然语言查询映射到基因和突变实体。
数据集结构
数据格式示例: json { "BRPF3": [ "D138=", "D165=", "F675V", "T255S", "T282S", "S1198=", "S864=", .... ], "GAS7": [ "Q238*", "Q314*", "Q318*", "Q378*", "P17R", "P21R", ... ] }
数据集创建
创建理由
- 目的:实现对自然语言查询中提到的基因和突变与GDC中观察到的基因和突变的快速映射。
源数据
- 来源:Genomic Data Commons API (
/ssms端点)
个人和敏感信息
- 说明:无
搜集汇总
数据集介绍

构建方式
在癌症基因组学研究领域,GDC-QAG-genes-mutations数据集通过系统性地采集Genomic Data Commons (GDC)平台中/ssms接口的基因与体细胞突变数据构建而成。研究团队采用特定字段查询技术(fields=gene_aa_change),从19606个基因中提取约560万个蛋白质变异记录,所有数据均遵循开源协议进行规范化处理。数据集构建过程详细记录于GitHub代码库,确保了数据溯源的可验证性。
特点
该数据集以基因-突变对为核心特征,采用轻量化的字典结构存储19606个基因及其对应蛋白质变异形式。数据结构呈现高度专业化特征,每个基因条目下精确记录氨基酸改变符号(如F675V、Q238*等),这些标准化表示可直接对接自然语言处理系统。值得注意的是,所有突变数据均源自权威的GDC数据库,具有临床级数据质量保证。
使用方法
作为Query Augmented Generation工具的核心支持组件,本数据集通过预构建的基因-突变映射字典实现高效查询转换。使用者可直接将自然语言查询中的基因实体与数据集记录的突变形式进行匹配,无需额外数据预处理。配套部署的HuggingFace Spaces交互界面(GDC QAG)为研究人员提供了直观的在线查询验证平台,具体API调用方法可参考开源代码库实现。
背景与挑战
背景概述
GDC-QAG-genes-mutations数据集由转化数据科学中心(Center for Translational Data Science)构建,旨在整合多种癌症中观察到的基因与体细胞突变数据。该数据集通过爬取基因组数据共享库(Genomic Data Commons, GDC)的`/ssms`端点获取蛋白质变异信息,涵盖了19606个基因中约560万个体细胞突变记录。其核心研究问题聚焦于如何高效地将自然语言查询映射到基因与突变实体,从而支持精准医学研究中的快速信息检索。该数据集为基于查询增强生成(QAG)技术的工具提供了关键数据支持,显著提升了癌症基因组学领域的数据可及性与分析效率。
当前挑战
该数据集在解决癌症基因组学领域的突变注释与查询问题时面临多重挑战。从领域问题来看,体细胞突变的异质性高且注释标准复杂,如何准确统一不同研究中的突变命名规则成为关键难点。在构建过程中,数据规模的庞大性导致存储与检索效率的平衡成为技术瓶颈,同时需确保API爬取数据的完整性与实时性。此外,基因突变数据的动态更新特性要求设计可持续维护的自动化流程,以应对GDC数据库的持续演进。
常用场景
经典使用场景
在癌症基因组学研究领域,GDC-QAG-genes-mutations数据集为研究人员提供了一个全面的基因突变数据库。该数据集通过整合来自Genomic Data Commons的体细胞突变数据,为探索癌症相关基因变异模式及其功能影响奠定了坚实基础。研究人员可以基于该数据集进行大规模突变谱分析,识别高频突变基因和关键功能位点。
实际应用
在临床转化研究中,该数据集支持精准医学应用的开发。通过Query Augmented Generation工具,临床研究人员可以快速查询特定基因的突变情况,辅助诊断标志物发现和治疗靶点筛选。其部署的HuggingFace Spaces网络应用进一步提升了数据可及性,使非生物信息学背景的医学专家也能便捷获取突变信息。
衍生相关工作
基于该数据集衍生的GDC QAG工具开创了自然语言处理技术在基因组数据查询中的创新应用。相关研究进一步开发了基于深度学习的突变功能预测模型,以及整合多组学数据的癌症亚型分类系统。这些工作显著推进了癌症基因组数据的标准化处理和智能分析流程的建立。
以上内容由遇见数据集搜集并总结生成



