DeepSEA training dataset|深度学习数据集|基因组学数据集

github2024-04-04 更新2024-05-31 收录

深度学习

基因组学

下载链接：

https://github.com/jakublipinski/build-deepsea-training-dataset

下载链接

链接失效反馈

资源简介：

DeepSEA训练数据集是一个深度学习算法框架，用于预测序列改变的染色质效应，具有单核苷酸敏感性。该数据集由DeepSEA作者提出，已成为训练类似算法的标准格式。数据集的训练标签来自统一处理的ENCODE和Roadmap Epigenomics数据发布，通过将基因组分割成200-bp的bin，并计算919个染色质特征的标签来准备输入。

The DeepSEA training dataset is a deep learning algorithm framework designed for predicting chromatin effects of sequence alterations with single-nucleotide sensitivity. Proposed by the authors of DeepSEA, this dataset has become a standard format for training similar algorithms. The training labels of the dataset are derived from uniformly processed ENCODE and Roadmap Epigenomics data releases, prepared by segmenting the genome into 200-bp bins and calculating labels for 919 chromatin features to prepare the inputs.

创建时间：

2019-12-30

原始信息汇总

数据集概述

数据集名称

DeepSEA训练数据集

数据集描述

DeepSEA训练数据集用于训练DeepSEA模型，该模型是一个基于深度学习的算法框架，用于预测序列改变对染色质效应的影响，具有单核苷酸敏感性。

数据集格式

输入准备: 将基因组分割成200bp的bin，每个bin计算919个染色质特征的标签。
标签计算: 如果超过一半的200bp bin位于峰值区域，则该染色质特征标签为1，否则为0。
训练样本: 每个训练样本包含人类GRCh37参考基因组中以每个200bp bin为中心的1000bp序列，以及919个染色质特征的标签向量。
序列表示: 1000bp DNA序列由1000×4二进制矩阵表示，列对应于A、G、C和T。

数据集构建

数据来源: 训练标签从均匀处理的ENCODE和Roadmap Epigenomics数据发布中计算得出。
数据分割: 训练和测试集按染色体分割，严格非重叠。染色体8和9被排除在训练之外，用于测试染色质特征预测性能。
验证集: 染色体7上的4000个样本（基因组坐标30,508,751–35,296,850）用作验证集。

数据集文件

训练数据: 包含DNA序列和标签的文件，格式与论文作者提供的相同。
数据和标签文件: 包含训练、验证和测试的数据和标签，保存为.npy格式。

数据集使用

模型训练: 可以使用生成的数据集在Google Colab上训练DeepSEA模型。
数据集比较: 可以比较生成的数据集与原始数据集的标签和序列向量。

数据集差异

标签差异: 与原始数据集相比，生成的数据集标签差异为0.10%。
序列差异: 序列向量差异非常小，为0.0001%。

自定义数据集构建

使用ENCODE数据: 可以构建基于ENCODE项目的自定义数据集，用于训练DeepSEA模型。

数据集调试

调试信息: 可以通过添加命令行参数保存所有数据为人类可读的.tsv文件，用于调试和验证结果。

数据集支持

基因组支持: 目前仅支持hg19基因组组装，但支持其他基因组组装的工作正在进行中。

AI搜集汇总

数据集介绍

构建方式

DeepSEA训练数据集的构建基于深度学习框架，旨在预测序列变异对染色质影响的单核苷酸敏感性。数据集的构建过程首先从ENCODE和Roadmap Epigenomics项目中获取经过统一处理的染色质特征数据。基因组被划分为200-bp的区间，每个区间根据染色质特征的存在与否进行标注。每个训练样本由人类GRCh37参考基因组中1000-bp的DNA序列组成，序列以1000×4的二进制矩阵表示，对应A、G、C、T四种碱基。训练集和测试集通过染色体进行划分，确保无重叠。

特点

DeepSEA训练数据集的特点在于其高分辨率和广泛的染色质特征覆盖。数据集包含919种染色质特征，涵盖了转录因子结合位点、DNase I超敏感位点以及组蛋白修饰等多种信息。每个样本的1000-bp序列不仅包含200-bp的核心区间，还提供了400-bp的侧翼区域，为模型提供了额外的上下文信息。此外，数据集的构建严格遵循了染色体划分的原则，确保了训练和测试数据的独立性。

使用方法

DeepSEA训练数据集的使用方法包括数据下载、预处理和模型训练。用户可以通过克隆GitHub仓库并下载原始数据文件来重建数据集。使用提供的Python脚本，用户可以生成训练、验证和测试集的文件，格式与原始数据集一致。生成的.mat和.npy文件可直接用于DeepSEA模型的训练。此外，用户还可以通过调整参数构建自定义数据集，例如通过设置信号阈值来筛选染色质特征。数据集还支持在Google Colab平台上进行模型训练，用户可以通过提供的Colab笔记本快速上手。

背景与挑战

背景概述

DeepSEA训练数据集是由普林斯顿大学的研究团队于2015年创建的，旨在通过深度学习模型预测序列变异对染色质功能的影响。该数据集基于ENCODE和Roadmap Epigenomics项目发布的染色质特征数据，涵盖了人类基因组GRCh37版本的521,636,200个碱基对，并包含919种染色质特征的标签。DeepSEA模型的提出为基因组学领域提供了一种高精度的序列变异效应预测工具，推动了非编码变异功能研究的发展。该数据集的标准化格式也为后续类似算法的训练提供了重要参考。

当前挑战

DeepSEA训练数据集在构建和应用过程中面临多重挑战。首先，染色质特征标签的生成依赖于复杂的基因组数据处理，如何准确地将染色质特征与基因组区域对应是一个技术难题。其次，数据集的构建需要处理大规模基因组数据，计算资源的需求极高，尤其是在生成训练样本时，涉及大量的序列分割和特征标注。此外，数据集中染色质特征的选择和信号阈值的设定对模型性能有显著影响，如何优化这些参数以提升预测精度是一个关键问题。最后，尽管数据集提供了标准化的训练格式，但在实际应用中，如何确保自定义数据集与原始数据集的一致性仍是一个挑战，尤其是在信号值处理和基因组区域选择方面。

常用场景

经典使用场景

DeepSEA训练数据集在基因组学和生物信息学领域中具有重要应用，特别是在预测非编码变异对染色质状态的影响方面。该数据集通过将人类基因组划分为200-bp的片段，并结合ENCODE和Roadmap Epigenomics项目的数据，生成了包含919个染色质特征的标签向量。这一数据集被广泛用于训练深度学习模型，以预测DNA序列变异对染色质可及性、转录因子结合和组蛋白修饰的影响。其经典使用场景包括构建和评估基于卷积神经网络的序列模型，以高精度预测染色质特征。

解决学术问题

DeepSEA训练数据集解决了基因组学中一个关键问题，即如何准确预测非编码变异对染色质状态的功能影响。传统方法难以捕捉单核苷酸变异对染色质特征的细微影响，而该数据集通过提供大规模、高质量的染色质特征标签，使得深度学习模型能够以单核苷酸分辨率进行预测。这一突破不仅提升了非编码变异功能注释的准确性，还为理解基因组调控机制提供了新的工具。该数据集的应用推动了基因组功能注释领域的发展，并为个性化医疗和疾病研究提供了重要支持。

衍生相关工作

DeepSEA训练数据集衍生了许多经典研究工作。例如，基于该数据集开发的DeepSEA模型被广泛应用于非编码变异的功能预测，并成为该领域的基准工具。此外，研究人员还利用该数据集开发了改进的深度学习模型，如DanQ和Basset，这些模型在染色质特征预测方面表现出更高的性能。该数据集还启发了其他基因组功能注释工具的开发，如DeepBind和DeepMotif，这些工具在转录因子结合位点预测和DNA序列模式识别方面取得了显著进展。DeepSEA数据集的影响力不仅限于基因组学，还为深度学习在生物信息学中的应用提供了范例。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

suno

该数据集包含由人工智能生成的659,788首歌曲的元数据，这些歌曲由suno.com平台生成。数据集是多语言的，主要语言为英语，但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开，允许任何用途的使用、修改和分发。

huggingface 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Pubmed

Pubmed 数据集包含来自 PubMed 数据库的 19717 篇与糖尿病相关的科学出版物，分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量描述，该字典由 500 个唯一词组成。

OpenDataLab 收录

SPIQA

SPIQA数据集由谷歌研究院和约翰斯·霍普金斯大学共同创建，是首个针对科学研究论文中复杂图表和表格进行多模态问答的大规模数据集。该数据集包含270,194个问题，涉及计算机科学多个领域的研究论文。数据集的创建过程结合了自动和手动筛选，确保了数据的质量和多样性。SPIQA数据集主要用于评估多模态大型语言模型在理解科学论文中的图表和表格方面的能力，旨在提高信息检索和问答系统的性能。

arXiv 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录