ClinVar-STXBP1-NLP-Dataset

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/SkyWhal3/ClinVar-STXBP1-NLP-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

STXBP1 ClinVar精选变异数据集是一个来自ClinVar的STXBP1和相关变异记录的精选集合，适用于语言建模、自然语言处理和生物医药应用。该数据集包括结构化的JSONL文件、Q/A对和精选摘要。它涵盖了文本分类、问答和文本到文本生成等多个任务类别，并包含与基因组学、生物医药、罕见疾病等相关的标签。该数据集适合用于医学语言建模、罕见病NLP、变异校对和生物医药问答。它包含每个变异的自然语言临床摘要和结构化数据字段。数据集规模较大，包含从1000万到1亿不等的条目，并提供多种格式，如QA对和精选摘要。

创建时间：

2025-06-07

原始信息汇总

STXBP1 ClinVar Curated Variants 数据集概述

基本信息

许可证: ODC Public Domain Dedication and License (PDDL)
任务类别: 文本分类、问答、文本生成
语言: 英语
标签: STXBP1、ClinVar、基因组学、生物医学、变异、罕见疾病、神经学、癫痫、NLP、LLM、问答、文本分类、生物信息学、SNARE、基因编辑、CRISPR、Cas9、开放数据、指令调整
数据集名称: STXBP1 ClinVar Curated Variants
大小: 10M < n < 100M

数据集概述

内容: 从ClinVar中精选的STXBP1及相关变异记录，适用于医学语言建模、罕见疾病NLP、变异整理和生物医学问答。
格式:
- 结构化JSONL（主分割）
- 问答对（txt，7,013,256个示例，1.66 GB）
- 精选摘要（txt，24,548,655个示例，1.51 GB）
- 推荐使用Parquet格式进行大规模使用

筛选标准

关键词: STXBP1、MUNC18、STXBP2、STXBP3、STXBP4、STXBP5、STXBP6、syntaxin.binding、CRISPR Cas9、CRISPR Cas12、encephalopathy、SNARE

特征

每个变异的自然语言临床摘要
结构化JSONL（兼容Parquet）
可直接使用的问答对
完整字段覆盖：变异位置、基因、疾病、临床意义、HGVS描述、数据库交叉链接、审查状态等

数据集统计

格式	大小（字节）	示例/行数
QA (.txt)	1,664,122,880	7,013,256
精选摘要	1,511,264,256	24,548,655
JSONL	1,598,603,264	3,506,628

数据模式

字段	描述
ID	ClinVar变异ID
chrom	染色体
pos	基因组位置（GRCh38）
ref	参考等位基因
alt	替代等位基因
gene	基因符号
disease	疾病/表型名称
significance	临床意义（如致病性、良性、不确定）
hgvs	HGVS变异描述
review	ClinVar审查状态
molecular_consequence	序列本体论+效应
variant_type	SNV、插入、缺失等
clndisdb	疾病数据库链接（OMIM、MedGen等）
clndnincl	包含的变异疾病名称
clndisdbincl	包含的变异疾病数据库链接
onc_fields	致癌性字段字典
sci_fields	体细胞临床影响字段字典
incl_fields	包含字段字典（INCL）

数据示例

json { "ID": "3385321", "chrom": "1", "pos": "66926", "ref": "AG", "alt": "A", "gene": "OR4F5", "disease": "Retinitis_pigmentosa", "significance": "Uncertain_significance", "hgvs": "NC_000001.11:g.66927del", "review": "criteria_provided, single_submitter", "molecular_consequence": "SO:0001627: intron_variant", "variant_type": "Deletion", "clndisdb": "Human_Phenotype_Ontology:HP:0000547,MONDO:MONDO:0019200,MeSH:D012174,MedGen:C0035334,OMIM:268000,OMIM:PS268000,Orphanet:791", "clndnincl": null, "clndisdbincl": null, "onc_fields": {}, "sci_fields": {}, "incl_fields": {} }

加载方式

使用🤗 Datasets库加载: python from datasets import load_dataset ds = load_dataset("YOURPATH/ClinVar-STXBP1-NLP-Dataset") print(ds["train"][0])
使用Pandas加载Parquet文件: python import pandas as pd df = pd.read_parquet("default/train/0000.parquet")
使用Polars高性能加载: python import polars as pl df = pl.read_parquet("default/train/0000.parquet")

创建者

Adam Freygang, A.K.A. SkyWhal3

许可证

ODC Public Domain Dedication and License (PDDL)

搜集汇总

数据集介绍

构建方式

该数据集通过系统筛选ClinVar数据库中的变异记录构建而成，聚焦于STXBP1基因家族及其相关变异。构建过程中采用了关键词检索策略，包括STXBP1、MUNC18等基因符号，以及CRISPR编辑技术和相关神经疾病术语。所有包含这些关键词的变异记录均被纳入，确保了数据覆盖的全面性。数据集经过严格清洗，剔除了空值字段，并转换为适合自然语言处理和机器学习应用的JSONL格式。

特点

数据集提供了丰富的生物医学信息，包括变异位点、基因符号、疾病名称、临床意义等结构化字段。其特色在于整合了自然语言临床摘要和问答对，为语言模型训练提供了直接可用的素材。数据以多种格式存储，包括高效的Parquet文件和原始JSONL，满足不同规模的研究需求。特别值得注意的是，数据集涵盖了STXBP基因家族与SNARE复合体生物学相关的广泛变异信息，为罕见神经疾病研究提供了宝贵资源。

使用方法

用户可通过Hugging Face的datasets库便捷加载该数据集，系统默认使用Parquet格式以保证处理效率。数据集支持多种使用方式：可直接加载完整数据集进行大规模分析，也可通过pandas或Polars进行高性能查询。对于特定研究需求，用户可筛选特定基因如STXBP1的记录，或使用DuckDB进行SQL风格查询。此外，流式处理模式支持大数据量的高效迭代，为不同计算环境下的研究提供了灵活性。

背景与挑战

背景概述

STXBP1 ClinVar Curated Variants数据集由Adam Freygang等人于2025年6月构建，专注于STXBP1基因及其相关变体的临床与基因组学研究。该数据集源自ClinVar数据库，涵盖了STXBP基因家族、SNARE复合体生物学、CRISPR介导的基因编辑以及相关神经系统疾病（尤其是癫痫性脑病）的变异记录。其核心研究问题在于为罕见疾病、神经学和生物医学领域提供高质量的变异数据，以支持自然语言处理（NLP）和大语言模型（LLM）的应用。该数据集的发布显著推动了生物信息学、基因组学和人工智能在临床研究中的交叉应用，为罕见疾病的诊断和治疗提供了重要资源。

当前挑战

STXBP1 ClinVar Curated Variants数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决基因变异分类、罕见疾病关联分析以及临床意义预测等复杂任务，这些任务需要处理高度专业化的生物医学文本和复杂的基因组数据。构建过程中的挑战包括数据清洗与标注的复杂性，例如处理ClinVar数据库中的大量冗余或缺失字段，确保变异记录的准确性和一致性。此外，将原始VCF格式转换为适合NLP和LLM应用的结构化格式（如JSONL和Q/A对）需要精细的工程化处理，以确保数据的可用性和可扩展性。

常用场景

经典使用场景

在基因组学和神经科学研究领域，ClinVar-STXBP1-NLP-Dataset为研究人员提供了丰富的STXBP1基因及其相关变体的结构化数据。该数据集特别适用于自然语言处理任务，如文本分类、问答系统和文本生成，尤其是在处理与罕见神经系统疾病相关的临床变异数据时。通过整合ClinVar数据库中的变异记录，该数据集为探索基因变异与疾病表型之间的关系提供了重要资源。

衍生相关工作

该数据集衍生了多项经典研究工作，特别是在生物医学自然语言处理和基因组学领域。例如，基于该数据集开发的问答系统被用于自动化临床变异注释，显著提高了遗传诊断的效率。此外，该数据集还被用于训练大型语言模型，以生成与STXBP1基因变异相关的临床报告摘要，进一步推动了精准医学的发展。

数据集最近研究