DeepSTARR2_Mouse_training_dataset

Hugging Face2025-11-10 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/Shenzhi-Chen/DeepSTARR2_Mouse_training_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DeepSTARR2-mouse-dataset是一个用于训练DeepSTARR2-Mouse模型的数据集，该模型用于预测染色质可及性和增强子活动。数据集包括来自心脏、肢体和中脑（CNS）三个组织的DNA序列及其对应的染色质可及性和增强子活动值，分为训练、验证和测试三个子集，并包含三个交叉验证折。另外，还有一个测试数据集，用于评估增强子活动模型。

创建时间：

2025-11-07

原始信息汇总

DeepSTARR2-Mouse 训练数据集概述

数据集简介

用途：训练DeepSTARR2-Mouse模型用于预测染色质可及性和增强子活性
许可协议：CC BY 4.0（需署名，仅限研究使用）
语言：英语
数据规模：10M-100M
任务类别：特征提取
标签：DNA序列模型、DeepSTARR2、基因组学、小鼠

数据来源

序列来源于Gorkin等人发表于《Nature》（2020）的研究（https://doi.org/10.1038/s41586-020-2093-3）
VISTA增强子浏览器（https://enhancer.lbl.gov/）
数据经过进一步处理生成组织特异性活性和可及性注释

数据集结构

可及性模型数据集

用途：序列到可及性模型的训练数据
组织类型：心脏、肢体、中脑（CNS）
结构：
- 每个组织包含3个交叉验证折叠
- 每个折叠包含训练集、验证集和测试集
- 每个子集包含：
  - FASTA文件（DNA序列）
  - TXT文件（对应的染色质可及性值）
- 每个组织共18个文件（3折叠×3子集×2文件类型）

活性模型数据集

用途：序列到活性模型的训练数据
组织类型：心脏、肢体、中脑（CNS）
结构：
- 与可及性数据集结构相同
- 每个组织包含3个交叉验证折叠
- 每个子集包含：
  - FASTA文件（DNA序列）
  - TXT文件（对应的增强子活性值）
- 每个组织共18个文件（3折叠×3子集×2文件类型）

测试数据集

内容：60万个随机生成的序列
用途：增强子活性模型评估

使用说明

预期用途：科学研究和可重复性目的
引用要求：需引用相关论文（待发表）

搜集汇总

数据集介绍

构建方式

在基因组学研究中，构建高质量的训练数据集对于开发精准的预测模型至关重要。DeepSTARR2_Mouse_training_dataset的数据源自Gorkin等人于《自然》杂志发表的研究成果以及VISTA增强子数据库，经过系统处理生成了组织特异性的染色质可及性和增强子活性注释。该数据集针对心脏、肢体和中脑三个组织，分别划分为三个交叉验证折，每个折包含训练、验证和测试三个子集，每个子集均由FASTA格式的DNA序列文件和TXT格式的对应功能数值文件组成，确保了数据的全面性和可靠性。

使用方法

对于基因组序列分析的研究者而言，该数据集的使用遵循明确的实验范式。研究人员可分别访问可及性模型数据集和活性模型数据集，根据目标组织选择对应的数据折进行模型训练。训练过程中需同步加载FASTA序列文件与TXT数值文件，通过交叉验证策略优化模型参数。最终模型性能需在独立测试集上进行验证，该测试集专门包含大规模生成序列，能够全面评估模型在未知数据上的泛化能力，为染色质可及性和增强子活性的 computational 预测研究提供完整解决方案。

背景与挑战

背景概述

基因组学领域对染色质可及性与增强子活性的调控机制研究日益深入，DeepSTARR2_Mouse_training_dataset作为2020年《Nature》期刊Gorkin等人研究成果的延伸，由国际知名研究机构联合构建。该数据集聚焦于小鼠心脏、肢体及中脑组织的DNA序列功能预测，通过整合VISTA增强子数据库的权威注释，建立了序列与表观遗传特征间的映射关系，为理解非编码区调控逻辑提供了关键数据支撑。其多组织跨验证框架的设计，显著推进了计算生物学模型在染色质空间构效关系研究中的标准化进程。

当前挑战

在基因组序列功能预测领域，核心挑战在于解析高度相似的DNA序列如何驱动组织特异性的染色质开放与增强子激活。数据集构建过程中面临双重困难：一是原始表观遗传数据的稀疏性与组织异质性要求开发新型归一化方法，二是跨组织活性注释的整合需克服不同实验平台的技术偏差。此外，600k测试序列的生成既要保持基因组背景的天然复杂性，又需满足机器学习模型对数据平衡性的严苛要求，这迫使研究者建立多层质量控制管道来确保生物学意义与计算效率的统一。

常用场景

经典使用场景

在基因组学研究中，DeepSTARR2_Mouse_training_dataset作为核心训练资源，被广泛用于构建DNA序列与表观遗传特征之间的映射关系。该数据集通过系统整合心脏、肢体及中脑组织的染色质可及性与增强子活性数据，为序列特征提取模型提供了标准化输入。研究者通常采用交叉验证框架，在三个组织类型中分别划分训练集、验证集和测试集，确保模型具备稳定的跨组织泛化能力。

解决学术问题

该数据集有效解决了非编码区功能预测的学术难题，通过高通量实验数据与计算模型的结合，揭示了DNA序列调控染色质开放状态的潜在机制。其多组织平行标注策略突破了传统单组织研究的局限性，为理解组织特异性表观遗传调控提供了关键见解。这种数据构建范式显著推进了基因调控元件的系统性解码工作，为功能基因组学领域建立了新的研究基准。

实际应用

在生物医学实践中，该数据集支撑的预测模型可直接应用于疾病相关遗传变异的功能注释。通过分析突变对增强子活性的影响，临床研究人员能够快速评估非编码区变异在先天性心脏病、肢体发育异常等疾病中的潜在作用。此外，制药企业可借助该模型筛选调控特定基因表达的增强子序列，为靶向治疗开发提供新型分子工具。

数据集最近研究