five

ClinVar-STXBP1-NLP-Dataset

收藏
Hugging Face2025-06-10 更新2025-06-11 收录
下载链接:
https://huggingface.co/datasets/SkyWhal3/ClinVar-STXBP1-NLP-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
STXBP1 ClinVar精选变异数据集是一个来自ClinVar的STXBP1和相关变异记录的精选集合,适用于语言建模、自然语言处理和生物医药应用。该数据集包括结构化的JSONL文件、Q/A对和精选摘要。它涵盖了文本分类、问答和文本到文本生成等多个任务类别,并包含与基因组学、生物医药、罕见疾病等相关的标签。该数据集适合用于医学语言建模、罕见病NLP、变异校对和生物医药问答。它包含每个变异的自然语言临床摘要和结构化数据字段。数据集规模较大,包含从1000万到1亿不等的条目,并提供多种格式,如QA对和精选摘要。
创建时间:
2025-06-07
原始信息汇总

STXBP1 ClinVar Curated Variants 数据集概述

基本信息

  • 许可证: ODC Public Domain Dedication and License (PDDL)
  • 任务类别: 文本分类、问答、文本生成
  • 语言: 英语
  • 标签: STXBP1、ClinVar、基因组学、生物医学、变异、罕见疾病、神经学、癫痫、NLP、LLM、问答、文本分类、生物信息学、SNARE、基因编辑、CRISPR、Cas9、开放数据、指令调整
  • 数据集名称: STXBP1 ClinVar Curated Variants
  • 大小: 10M < n < 100M

数据集概述

  • 内容: 从ClinVar中精选的STXBP1及相关变异记录,适用于医学语言建模、罕见疾病NLP、变异整理和生物医学问答。
  • 格式:
    • 结构化JSONL(主分割)
    • 问答对(txt,7,013,256个示例,1.66 GB)
    • 精选摘要(txt,24,548,655个示例,1.51 GB)
    • 推荐使用Parquet格式进行大规模使用

筛选标准

  • 关键词: STXBP1、MUNC18、STXBP2、STXBP3、STXBP4、STXBP5、STXBP6、syntaxin.binding、CRISPR Cas9、CRISPR Cas12、encephalopathy、SNARE

特征

  • 每个变异的自然语言临床摘要
  • 结构化JSONL(兼容Parquet)
  • 可直接使用的问答对
  • 完整字段覆盖:变异位置、基因、疾病、临床意义、HGVS描述、数据库交叉链接、审查状态等

数据集统计

格式 大小(字节) 示例/行数
QA (.txt) 1,664,122,880 7,013,256
精选摘要 1,511,264,256 24,548,655
JSONL 1,598,603,264 3,506,628

数据模式

字段 描述
ID ClinVar变异ID
chrom 染色体
pos 基因组位置(GRCh38)
ref 参考等位基因
alt 替代等位基因
gene 基因符号
disease 疾病/表型名称
significance 临床意义(如致病性、良性、不确定)
hgvs HGVS变异描述
review ClinVar审查状态
molecular_consequence 序列本体论+效应
variant_type SNV、插入、缺失等
clndisdb 疾病数据库链接(OMIM、MedGen等)
clndnincl 包含的变异疾病名称
clndisdbincl 包含的变异疾病数据库链接
onc_fields 致癌性字段字典
sci_fields 体细胞临床影响字段字典
incl_fields 包含字段字典(INCL)

数据示例

json { "ID": "3385321", "chrom": "1", "pos": "66926", "ref": "AG", "alt": "A", "gene": "OR4F5", "disease": "Retinitis_pigmentosa", "significance": "Uncertain_significance", "hgvs": "NC_000001.11:g.66927del", "review": "criteria_provided, single_submitter", "molecular_consequence": "SO:0001627: intron_variant", "variant_type": "Deletion", "clndisdb": "Human_Phenotype_Ontology:HP:0000547,MONDO:MONDO:0019200,MeSH:D012174,MedGen:C0035334,OMIM:268000,OMIM:PS268000,Orphanet:791", "clndnincl": null, "clndisdbincl": null, "onc_fields": {}, "sci_fields": {}, "incl_fields": {} }

加载方式

  • 使用🤗 Datasets库加载: python from datasets import load_dataset ds = load_dataset("YOURPATH/ClinVar-STXBP1-NLP-Dataset") print(ds["train"][0])

  • 使用Pandas加载Parquet文件: python import pandas as pd df = pd.read_parquet("default/train/0000.parquet")

  • 使用Polars高性能加载: python import polars as pl df = pl.read_parquet("default/train/0000.parquet")

创建者

Adam Freygang, A.K.A. SkyWhal3

许可证

ODC Public Domain Dedication and License (PDDL)

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统筛选ClinVar数据库中的变异记录构建而成,聚焦于STXBP1基因家族及其相关变异。构建过程中采用了关键词检索策略,包括STXBP1、MUNC18等基因符号,以及CRISPR编辑技术和相关神经疾病术语。所有包含这些关键词的变异记录均被纳入,确保了数据覆盖的全面性。数据集经过严格清洗,剔除了空值字段,并转换为适合自然语言处理和机器学习应用的JSONL格式。
特点
数据集提供了丰富的生物医学信息,包括变异位点、基因符号、疾病名称、临床意义等结构化字段。其特色在于整合了自然语言临床摘要和问答对,为语言模型训练提供了直接可用的素材。数据以多种格式存储,包括高效的Parquet文件和原始JSONL,满足不同规模的研究需求。特别值得注意的是,数据集涵盖了STXBP基因家族与SNARE复合体生物学相关的广泛变异信息,为罕见神经疾病研究提供了宝贵资源。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,系统默认使用Parquet格式以保证处理效率。数据集支持多种使用方式:可直接加载完整数据集进行大规模分析,也可通过pandas或Polars进行高性能查询。对于特定研究需求,用户可筛选特定基因如STXBP1的记录,或使用DuckDB进行SQL风格查询。此外,流式处理模式支持大数据量的高效迭代,为不同计算环境下的研究提供了灵活性。
背景与挑战
背景概述
STXBP1 ClinVar Curated Variants数据集由Adam Freygang等人于2025年6月构建,专注于STXBP1基因及其相关变体的临床与基因组学研究。该数据集源自ClinVar数据库,涵盖了STXBP基因家族、SNARE复合体生物学、CRISPR介导的基因编辑以及相关神经系统疾病(尤其是癫痫性脑病)的变异记录。其核心研究问题在于为罕见疾病、神经学和生物医学领域提供高质量的变异数据,以支持自然语言处理(NLP)和大语言模型(LLM)的应用。该数据集的发布显著推动了生物信息学、基因组学和人工智能在临床研究中的交叉应用,为罕见疾病的诊断和治疗提供了重要资源。
当前挑战
STXBP1 ClinVar Curated Variants数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,该数据集旨在解决基因变异分类、罕见疾病关联分析以及临床意义预测等复杂任务,这些任务需要处理高度专业化的生物医学文本和复杂的基因组数据。构建过程中的挑战包括数据清洗与标注的复杂性,例如处理ClinVar数据库中的大量冗余或缺失字段,确保变异记录的准确性和一致性。此外,将原始VCF格式转换为适合NLP和LLM应用的结构化格式(如JSONL和Q/A对)需要精细的工程化处理,以确保数据的可用性和可扩展性。
常用场景
经典使用场景
在基因组学和神经科学研究领域,ClinVar-STXBP1-NLP-Dataset为研究人员提供了丰富的STXBP1基因及其相关变体的结构化数据。该数据集特别适用于自然语言处理任务,如文本分类、问答系统和文本生成,尤其是在处理与罕见神经系统疾病相关的临床变异数据时。通过整合ClinVar数据库中的变异记录,该数据集为探索基因变异与疾病表型之间的关系提供了重要资源。
衍生相关工作
该数据集衍生了多项经典研究工作,特别是在生物医学自然语言处理和基因组学领域。例如,基于该数据集开发的问答系统被用于自动化临床变异注释,显著提高了遗传诊断的效率。此外,该数据集还被用于训练大型语言模型,以生成与STXBP1基因变异相关的临床报告摘要,进一步推动了精准医学的发展。
数据集最近研究
最新研究方向
近年来,随着基因组学和生物医学信息学的快速发展,STXBP1基因及其相关变异在神经系统疾病特别是癫痫性脑病中的研究日益深入。ClinVar-STXBP1-NLP-Dataset作为一个精心整理的变异记录数据集,为研究人员提供了丰富的自然语言临床总结和结构化数据,极大促进了基于大语言模型的生物医学文本挖掘和问答系统的开发。该数据集在前沿研究中被广泛应用于罕见病诊断辅助、变异致病性预测模型的训练,以及CRISPR基因编辑技术的靶点筛选。其涵盖的STXBP基因家族和SNARE复合体生物学内容,为探索神经递质释放机制和相关疾病治疗靶点提供了重要数据支持。随着精准医疗和AI辅助诊断的兴起,该数据集在推动个性化治疗和临床决策系统优化方面展现出显著价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作