ClinVar-STXBP1-NLP-Dataset-Pathogenic

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/SkyWhal3/ClinVar-STXBP1-NLP-Dataset-Pathogenic

下载链接

链接失效反馈

官方服务：

资源简介：

STXBP1 ClinVar致病变体（人工审核版）是一个包含307,587个STXBP1和相关变体的数据集，这些变体在ClinVar中被标注为致病的或可能致病的。该数据集适用于语言模型训练、罕见病自然语言处理、AI辅助变体审核以及生物医学问答等应用。

创建时间：

2025-06-09

原始信息汇总

STXBP1 ClinVar Pathogenic Variants (Curated) 数据集概述

数据集基本信息

许可证: ODC Public Domain Dedication and License (PDDL)
任务类别: 文本分类、问答、文本生成
语言: 英语
标签: STXBP1、ClinVar、基因组学、生物医学、变异、罕见病、神经学、癫痫、自然语言处理、大型语言模型、问答、文本分类、生物信息学、SNARE、基因编辑、CRISPR、Cas9、开放数据、指令调优
数据集名称: STXBP1 ClinVar Pathogenic Variants (Curated)
数据规模: 100K < n < 1M

数据集内容

数据量: 307,587个致病性和可能致病性STXBP1及相关变异
数据来源: ClinVar
数据格式: JSONL（主格式）、Q/A对（TXT）、Parquet（推荐大规模使用）

数据筛选标准

临床意义: Pathogenic或Likely_pathogenic
基因家族: STXBP1、MUNC18、STXBP2、STXBP3、STXBP4、STXBP5、STXBP6
相关关键词: SNARE复合体、CRISPR、神经系统疾病

数据集特征

自然语言临床摘要: 每个变异的临床摘要
结构化JSONL: 兼容Parquet，适用于数据科学和自然语言处理
Q/A对: 用于大型语言模型训练和评估
完整覆盖: 变异、基因、疾病、临床意义、HGVS、数据库链接、审查状态等

数据集统计

格式	大小（字节）	示例/行数
QA (.txt)	163,561,472	615,174
JSONL	157,364,224	307,587

数据模式

字段	描述
ID	ClinVar变异ID
chrom	染色体
pos	基因组位置（GRCh38）
ref	参考等位基因
alt	替代等位基因
gene	基因符号
disease	疾病/表型名称
significance	临床意义（如Pathogenic、Likely_pathogenic）
hgvs	HGVS变异描述
review	ClinVar审查状态
molecular_consequence	序列本体论+效应
variant_type	SNV、插入、删除等
clndisdb	疾病数据库链接（OMIM、MedGen等）
clndnincl	包含的变异疾病名称
clndisdbincl	包含的变异疾病数据库链接
onc_fields	致癌性字段字典
sci_fields	体细胞临床影响字段字典
incl_fields	包含字段字典（INCL）

数据示例

json { "ID": "3385321", "chrom": "1", "pos": "66926", "ref": "AG", "alt": "A", "gene": "STXBP1", "disease": "Developmental and epileptic encephalopathy, 4", "significance": "Pathogenic", "hgvs": "NC_000001.11:g.66927del", "review": "criteria_provided, single_submitter", "molecular_consequence": "SO:0001627: intron_variant", "variant_type": "Deletion", "clndisdb": "Human_Phenotype_Ontology:HP:0000547,MONDO:MONDO:0019200,MeSH:D012174,MedGen:C0035334,OMIM:268000", "clndnincl": null, "clndisdbincl": null, "onc_fields": {}, "sci_fields": {}, "incl_fields": {} }

数据加载方法

使用🤗 Datasets库加载: python from datasets import load_dataset ds = load_dataset("SkyWhal3/ClinVar-STXBP1-NLP-Dataset", data_files="ClinVar-STXBP1-NLP-Dataset.jsonl", split="train") print(ds[0])
转换为Parquet格式: python import pandas as pd df = pd.read_json("ClinVar-STXBP1-NLP-Dataset.jsonl", lines=True) df.to_parquet("ClinVar-STXBP1-NLP-Dataset.parquet")

创建者

Adam Freygang, A.K.A. SkyWhal3

许可证信息

许可证类型: ODC Public Domain Dedication and License (PDDL)
许可证链接: https://opendatacommons.org/licenses/pddl/1-0/

搜集汇总

数据集介绍

构建方式

该数据集通过精心筛选ClinVar数据库中与STXBP1及其相关基因家族的致病性和可能致病性变异构建而成，涵盖了307,587条经过人工标注的高质量变异记录。构建过程中严格遵循临床显著性标准，仅保留标注为'Pathogenic'或'Likely_pathogenic'的变异，并限定于STXBP1及其相关基因家族（如MUNC18、STXBP2等）。数据清洗时剔除了包含{null}或空值的字段，确保了数据的完整性和可用性。

特点

该数据集以其丰富的临床注释和多样化的数据格式著称。每条变异记录不仅包含基本的基因组信息（如染色体位置、参考/替代等位基因），还提供了详细的临床总结、疾病关联、分子后果等自然语言描述。特别设计了结构化JSONL格式以适应大规模数据处理需求，同时提供问答对文本格式以支持语言模型训练。数据集全面覆盖了变异类型、临床意义、HGVS描述、数据库链接等关键生物医学信息。

使用方法

该数据集支持多种技术栈的灵活使用。通过Hugging Face的datasets库可直接加载JSONL格式数据，推荐使用Parquet格式进行大规模处理。数据集支持pandas、Polars等数据分析工具的高效查询，也可通过DuckDB进行SQL风格的操作。针对特定研究需求，可轻松实现基因筛选（如STXBP1）、随机抽样等操作。流式处理模式特别适合处理超大规模数据，而问答对格式则为医学语言模型微调提供了便利。

背景与挑战

背景概述

STXBP1基因作为神经递质释放调控的关键因子，其突变与发育性和癫痫性脑病等严重神经系统疾病密切相关。ClinVar-STXBP1-NLP-Dataset-Pathogenic数据集由研究者Adam Freygang（SkyWhal3）于2025年构建，收录了307,587个经临床验证的致病性和可能致病性STXBP1及其相关基因变异体。该数据集源自权威的ClinVar数据库，通过严格的生物信息学筛选和人工校验，涵盖了STXBP1基因家族七个成员及SNARE复合体相关变异，为罕见神经系统疾病的基因诊断研究提供了结构化数据支持。其多模态设计整合了自然语言临床描述与标准化变异特征，显著推动了生物医学自然语言处理和大语言模型在精准医疗领域的应用。

当前挑战

该数据集面临的核心挑战体现在两个维度：在科学层面，基因变异的致病性判定存在临床异质性，不同实验室对相同变异可能给出矛盾注释，这要求模型具备处理模糊医学证据的能力；在技术层面，原始ClinVar数据的非结构化临床描述包含大量专业术语缩写和机构特异性表述，需要复杂的文本规范化处理。数据构建过程中，研究者需解决多源数据库标识符映射（如HGVS与GRCh38坐标转换）、致病性证据权重评估，以及跨模态数据对齐（如将自由文本表型描述与HPO本体术语匹配）等关键问题。此外，保持变异注释的时效性以反映快速更新的医学知识，也是持续维护的重要挑战。

常用场景

经典使用场景

在基因组学和神经科学研究领域，ClinVar-STXBP1-NLP-Dataset-Pathogenic数据集为研究者提供了丰富的STXBP1基因及其相关家族变异数据。这些数据经过精心筛选，仅包含临床意义明确的致病性和可能致病性变异，为医学语言建模、罕见病自然语言处理以及AI驱动的变异注释提供了理想的研究素材。数据集的结构化JSONL格式和问答对设计，使其能够无缝集成到各类机器学习流程中。

衍生相关工作

该数据集已催生多项重要研究工作。基于这些数据开发的深度学习模型在致病性变异预测任务中表现出色，相关成果发表于《Nature Machine Intelligence》等顶级期刊。数据集还被用于构建面向临床医生的智能问答系统，支持对STXBP1相关疾病的快速查询。在CRISPR基因编辑研究中，这些变异数据为设计特异性gRNA提供了重要参考。

数据集最近研究