ClinVar-STXBP1-NLP-Dataset
收藏STXBP1 ClinVar Curated Variants 数据集概述
基本信息
- 许可证: ODC Public Domain Dedication and License (PDDL)
- 任务类别: 文本分类、问答、文本生成
- 语言: 英语
- 标签: STXBP1、ClinVar、基因组学、生物医学、变异、罕见疾病、神经学、癫痫、NLP、LLM、问答、文本分类、生物信息学、SNARE、基因编辑、CRISPR、Cas9、开放数据、指令调整
- 数据集名称: STXBP1 ClinVar Curated Variants
- 大小: 10M < n < 100M
数据集概述
- 内容: 从ClinVar中精选的STXBP1及相关变异记录,适用于医学语言建模、罕见疾病NLP、变异整理和生物医学问答。
- 格式:
- 结构化JSONL(主分割)
- 问答对(txt,7,013,256个示例,1.66 GB)
- 精选摘要(txt,24,548,655个示例,1.51 GB)
- 推荐使用Parquet格式进行大规模使用
筛选标准
- 关键词: STXBP1、MUNC18、STXBP2、STXBP3、STXBP4、STXBP5、STXBP6、syntaxin.binding、CRISPR Cas9、CRISPR Cas12、encephalopathy、SNARE
特征
- 每个变异的自然语言临床摘要
- 结构化JSONL(兼容Parquet)
- 可直接使用的问答对
- 完整字段覆盖:变异位置、基因、疾病、临床意义、HGVS描述、数据库交叉链接、审查状态等
数据集统计
| 格式 | 大小(字节) | 示例/行数 |
|---|---|---|
| QA (.txt) | 1,664,122,880 | 7,013,256 |
| 精选摘要 | 1,511,264,256 | 24,548,655 |
| JSONL | 1,598,603,264 | 3,506,628 |
数据模式
| 字段 | 描述 |
|---|---|
| ID | ClinVar变异ID |
| chrom | 染色体 |
| pos | 基因组位置(GRCh38) |
| ref | 参考等位基因 |
| alt | 替代等位基因 |
| gene | 基因符号 |
| disease | 疾病/表型名称 |
| significance | 临床意义(如致病性、良性、不确定) |
| hgvs | HGVS变异描述 |
| review | ClinVar审查状态 |
| molecular_consequence | 序列本体论+效应 |
| variant_type | SNV、插入、缺失等 |
| clndisdb | 疾病数据库链接(OMIM、MedGen等) |
| clndnincl | 包含的变异疾病名称 |
| clndisdbincl | 包含的变异疾病数据库链接 |
| onc_fields | 致癌性字段字典 |
| sci_fields | 体细胞临床影响字段字典 |
| incl_fields | 包含字段字典(INCL) |
数据示例
json { "ID": "3385321", "chrom": "1", "pos": "66926", "ref": "AG", "alt": "A", "gene": "OR4F5", "disease": "Retinitis_pigmentosa", "significance": "Uncertain_significance", "hgvs": "NC_000001.11:g.66927del", "review": "criteria_provided, single_submitter", "molecular_consequence": "SO:0001627: intron_variant", "variant_type": "Deletion", "clndisdb": "Human_Phenotype_Ontology:HP:0000547,MONDO:MONDO:0019200,MeSH:D012174,MedGen:C0035334,OMIM:268000,OMIM:PS268000,Orphanet:791", "clndnincl": null, "clndisdbincl": null, "onc_fields": {}, "sci_fields": {}, "incl_fields": {} }
加载方式
-
使用🤗 Datasets库加载: python from datasets import load_dataset ds = load_dataset("YOURPATH/ClinVar-STXBP1-NLP-Dataset") print(ds["train"][0])
-
使用Pandas加载Parquet文件: python import pandas as pd df = pd.read_parquet("default/train/0000.parquet")
-
使用Polars高性能加载: python import polars as pl df = pl.read_parquet("default/train/0000.parquet")
创建者
Adam Freygang, A.K.A. SkyWhal3
许可证
ODC Public Domain Dedication and License (PDDL)




