SkyWhal3/STXBP1_Base_Editing_Parameter_Sweep_V2
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/SkyWhal3/STXBP1_Base_Editing_Parameter_Sweep_V2
下载链接
链接失效反馈官方服务:
资源简介:
STXBP1碱基编辑参数扫描数据集(规范603-aa,v2)是一个专注于罕见疾病和基因组编辑的数据集。它基于MANE Plus Clinical规范参考,包含170种致病性STXBP1变体的3,850,560种碱基编辑参数组合,总计654.6百万行数据。数据集详细描述了参考框架、文件内容、模式以及可重复性。v2版本是对v1版本的规范继承,修正了v1中的一些错误,并采用了临床社区使用的603-aa框架。数据集包含三个主要文件:一个JSON文件(每个变体的最佳参数集)、一个压缩的CSV文件(所有参数组合)和一个文本文件(170个变体输入列表)。数据集的使用方法、引用和许可证信息也在README中详细说明。
The STXBP1 Base-Editing Parameter Sweep dataset (Canonical 603-aa, v2) focuses on rare diseases and genome editing. It is built on the MANE Plus Clinical canonical reference and includes 3,850,560 base-editing parameter combinations for 170 pathogenic STXBP1 variants, totaling 654.6 million rows. The dataset provides detailed information about the reference frame, file contents, schema, and reproducibility. Version v2 is the canonical successor to v1, correcting errors in v1 and adopting the 603-aa frame used by the clinical community. The dataset consists of three main files: a JSON file (top-scoring parameter set per variant), a compressed CSV file (all parameter combinations), and a text file (170-variant input list). The README also includes usage instructions, citation requirements, and licensing information (MIT).
提供机构:
SkyWhal3
搜集汇总
数据集介绍

构建方式
本数据集聚焦于STXBP1基因(编码Munc18-1蛋白)的路径性变异,针对170种已知致病突变,系统性地对碱基编辑参数进行了全面扫描。构建过程依托MANE Plus Clinical规范参考序列NM_003165.6(编码603个氨基酸),以ClinVar和临床实践所使用的蛋白框架为基准。每种变异均与3,850,560种参数组合(涵盖不同引导RNA搜索半径、上下文识别窗口及编辑窗口范围)进行配对,通过CPU多进程并行计算生成总计6.546亿行数据。数据集包含一个精选的每个变异最优参数集的JSON文件,以及存储全部参数组合的压缩CSV文件。
特点
该数据集的一项核心特色在于严格锚定于603个氨基酸的规范蛋白框架,确保了与临床变异报告的准确对应。与基于594个氨基酸框架的先前版本(v1)相比,v2修正了C端变异(如Q576X和E603D)的标注错误,并采用SHA-256校验机制锁定蛋白序列,防止后续重建时的偏差。数据集不仅提供了丰富的参数组合(覆盖191种扫描半径、96种上下文窗口和210种编辑窗口),还引入了复合评分(兼容性、序列同一性及引导RNA质量)以量化每个参数集的效果,同时包含人类与小鼠之间的序列同源性信息,为跨物种转化研究提供了便利。
使用方法
用户可通过Python的pandas库便捷地调用本数据集。对于希望快速获取每个变异的最优方案者,可直接加载JSON文件并使用标签(如K196X)进行索引查询。而需要完整搜索空间进行自定义重排序的研究人员,则可利用CSV文件进行流式处理,通过分块读取(例如每100万行)来有效管理内存消耗。数据集的列结构清晰,包含变异标签、cDNA变化、编辑类型、引导RNA候选数及兼容性标记等字段,便于进行灵活的筛选与分析。所有构建脚本和输入文件均已公开,确保了完全的可重复性。
背景与挑战
背景概述
STXBP1基因突变是导致早发性癫痫脑病的关键遗传病因之一,其编码的Munc18-1蛋白在突触囊泡释放过程中发挥核心调控作用。为系统评估碱基编辑技术在STXBP1致病性变异中的修复潜力,Adam Freygang及其团队于2026年创建了该数据集,基于MANE Plus Clinical标准参考转录本NM_003165.6(编码603个氨基酸),对170个致病性STXBP1变异进行了涵盖约385万种编辑参数组合的全扫描,生成了超过6.5亿条记录。该数据集通过规范化的参考框架对齐,解决了临床报告与基础研究间长期存在的转录本版本分歧问题,为精准基因组编辑工具的优化和转化医学研究提供了重要资源。
当前挑战
该数据集面临的核心领域挑战在于:碱基编辑技术需在高度保守的基因组区域中实现高效且特异的单碱基修正,同时避免脱靶效应。在构建过程中,研究团队需应对多重技术难题:首先,STXBP1基因存在两个MANE指定转录本(594氨基酸与603氨基酸),v1版本因错误注释导致部分变异(如Q576X和E603D)的位置和真实性出现偏差;其次,为覆盖全参数空间(扫描半径10-200nt、上下文窗口5-100nt等),需在CPU多进程环境下高效处理191×96×210=3,850,560种组合,并确保结果的跨平台复现性;最后,通过SHA-256哈希校验锁定参考蛋白序列,防止序列污染或版本漂移对下游分析的干扰。
常用场景
经典使用场景
STXBP1_Base_Editing_Parameter_Sweep_V2 数据集专为罕见遗传病 STXBP1 相关脑病的碱基编辑疗法设计,其经典使用场景在于系统性地扫描 170 种致病性 STXBP1 突变体,针对每种突变评估超过 385 万种碱基编辑参数组合(包括编辑类型、引导RNA搜索半径、上下文窗口长度等),从而筛选出最优的编辑策略。该数据集以 MANE Plus Clinical 标准转录本 NM_003165.6 为参考,确保了与临床报告的变异定位一致,为精准基因修复提供了可直接调用的候选引导RNA和参数配置。
实际应用
在实际应用中,该数据集为基因治疗领域的临床前研究提供了直接工具。研究人员可利用其中每个变体的最优参数集,快速设计针对特定STXBP1突变的碱基编辑实验,无需从头筛选海量条件。例如,对于常见的K196X或R292H等突变,数据集提供了已验证的引导RNA序列和编辑窗口配置,可显著缩短从突变识别到功能验证的周期。此外,它支持ABE、CBE及Prime Editing等多种编辑模式,适用于不同细胞模型(如患者来源的iPSC神经元)的修复尝试。
衍生相关工作
该数据集衍生了多项经典工作,包括基于其评分体系开发的自动化引导RNA设计流水线(如ARIA平台的参数优化模块),以及实现从突变列表到编辑方案的一键式输出工具。此外,v2版本对参考框架的精准校正确保了与ClinVar等临床数据库的兼容性,催生了跨数据集验证的研究——例如将最优参数应用于类脑器官或小鼠模型的体内编辑效率评估。该数据集还促进了STXBP1相关亚型(如594-aa与603-aa转录本)的功能比较分析,为理解蛋白C端区域的疾病机制提供了新视角。
以上内容由遇见数据集搜集并总结生成



