five

DeepSEA training dataset|深度学习数据集|基因组学数据集

收藏
github2024-04-04 更新2024-05-31 收录
深度学习
基因组学
下载链接:
https://github.com/jakublipinski/build-deepsea-training-dataset
下载链接
链接失效反馈
资源简介:
DeepSEA训练数据集是一个深度学习算法框架,用于预测序列改变的染色质效应,具有单核苷酸敏感性。该数据集由DeepSEA作者提出,已成为训练类似算法的标准格式。数据集的训练标签来自统一处理的ENCODE和Roadmap Epigenomics数据发布,通过将基因组分割成200-bp的bin,并计算919个染色质特征的标签来准备输入。

The DeepSEA training dataset is a deep learning algorithm framework designed for predicting chromatin effects of sequence alterations with single-nucleotide sensitivity. Proposed by the authors of DeepSEA, this dataset has become a standard format for training similar algorithms. The training labels of the dataset are derived from uniformly processed ENCODE and Roadmap Epigenomics data releases, prepared by segmenting the genome into 200-bp bins and calculating labels for 919 chromatin features to prepare the inputs.
创建时间:
2019-12-30
原始信息汇总

数据集概述

数据集名称

DeepSEA训练数据集

数据集描述

DeepSEA训练数据集用于训练DeepSEA模型,该模型是一个基于深度学习的算法框架,用于预测序列改变对染色质效应的影响,具有单核苷酸敏感性。

数据集格式

  • 输入准备: 将基因组分割成200bp的bin,每个bin计算919个染色质特征的标签。
  • 标签计算: 如果超过一半的200bp bin位于峰值区域,则该染色质特征标签为1,否则为0。
  • 训练样本: 每个训练样本包含人类GRCh37参考基因组中以每个200bp bin为中心的1000bp序列,以及919个染色质特征的标签向量。
  • 序列表示: 1000bp DNA序列由1000×4二进制矩阵表示,列对应于A、G、C和T。

数据集构建

  • 数据来源: 训练标签从均匀处理的ENCODE和Roadmap Epigenomics数据发布中计算得出。
  • 数据分割: 训练和测试集按染色体分割,严格非重叠。染色体8和9被排除在训练之外,用于测试染色质特征预测性能。
  • 验证集: 染色体7上的4000个样本(基因组坐标30,508,751–35,296,850)用作验证集。

数据集文件

  • 训练数据: 包含DNA序列和标签的文件,格式与论文作者提供的相同。
  • 数据和标签文件: 包含训练、验证和测试的数据和标签,保存为.npy格式。

数据集使用

  • 模型训练: 可以使用生成的数据集在Google Colab上训练DeepSEA模型。
  • 数据集比较: 可以比较生成的数据集与原始数据集的标签和序列向量。

数据集差异

  • 标签差异: 与原始数据集相比,生成的数据集标签差异为0.10%。
  • 序列差异: 序列向量差异非常小,为0.0001%。

自定义数据集构建

  • 使用ENCODE数据: 可以构建基于ENCODE项目的自定义数据集,用于训练DeepSEA模型。

数据集调试

  • 调试信息: 可以通过添加命令行参数保存所有数据为人类可读的.tsv文件,用于调试和验证结果。

数据集支持

  • 基因组支持: 目前仅支持hg19基因组组装,但支持其他基因组组装的工作正在进行中。
AI搜集汇总
数据集介绍
main_image_url
构建方式
DeepSEA训练数据集的构建基于深度学习框架,旨在预测序列变异对染色质影响的单核苷酸敏感性。数据集的构建过程首先从ENCODE和Roadmap Epigenomics项目中获取经过统一处理的染色质特征数据。基因组被划分为200-bp的区间,每个区间根据染色质特征的存在与否进行标注。每个训练样本由人类GRCh37参考基因组中1000-bp的DNA序列组成,序列以1000×4的二进制矩阵表示,对应A、G、C、T四种碱基。训练集和测试集通过染色体进行划分,确保无重叠。
特点
DeepSEA训练数据集的特点在于其高分辨率和广泛的染色质特征覆盖。数据集包含919种染色质特征,涵盖了转录因子结合位点、DNase I超敏感位点以及组蛋白修饰等多种信息。每个样本的1000-bp序列不仅包含200-bp的核心区间,还提供了400-bp的侧翼区域,为模型提供了额外的上下文信息。此外,数据集的构建严格遵循了染色体划分的原则,确保了训练和测试数据的独立性。
使用方法
DeepSEA训练数据集的使用方法包括数据下载、预处理和模型训练。用户可以通过克隆GitHub仓库并下载原始数据文件来重建数据集。使用提供的Python脚本,用户可以生成训练、验证和测试集的文件,格式与原始数据集一致。生成的.mat和.npy文件可直接用于DeepSEA模型的训练。此外,用户还可以通过调整参数构建自定义数据集,例如通过设置信号阈值来筛选染色质特征。数据集还支持在Google Colab平台上进行模型训练,用户可以通过提供的Colab笔记本快速上手。
背景与挑战
背景概述
DeepSEA训练数据集是由普林斯顿大学的研究团队于2015年创建的,旨在通过深度学习模型预测序列变异对染色质功能的影响。该数据集基于ENCODE和Roadmap Epigenomics项目发布的染色质特征数据,涵盖了人类基因组GRCh37版本的521,636,200个碱基对,并包含919种染色质特征的标签。DeepSEA模型的提出为基因组学领域提供了一种高精度的序列变异效应预测工具,推动了非编码变异功能研究的发展。该数据集的标准化格式也为后续类似算法的训练提供了重要参考。
当前挑战
DeepSEA训练数据集在构建和应用过程中面临多重挑战。首先,染色质特征标签的生成依赖于复杂的基因组数据处理,如何准确地将染色质特征与基因组区域对应是一个技术难题。其次,数据集的构建需要处理大规模基因组数据,计算资源的需求极高,尤其是在生成训练样本时,涉及大量的序列分割和特征标注。此外,数据集中染色质特征的选择和信号阈值的设定对模型性能有显著影响,如何优化这些参数以提升预测精度是一个关键问题。最后,尽管数据集提供了标准化的训练格式,但在实际应用中,如何确保自定义数据集与原始数据集的一致性仍是一个挑战,尤其是在信号值处理和基因组区域选择方面。
常用场景
经典使用场景
DeepSEA训练数据集在基因组学和生物信息学领域中具有重要应用,特别是在预测非编码变异对染色质状态的影响方面。该数据集通过将人类基因组划分为200-bp的片段,并结合ENCODE和Roadmap Epigenomics项目的数据,生成了包含919个染色质特征的标签向量。这一数据集被广泛用于训练深度学习模型,以预测DNA序列变异对染色质可及性、转录因子结合和组蛋白修饰的影响。其经典使用场景包括构建和评估基于卷积神经网络的序列模型,以高精度预测染色质特征。
解决学术问题
DeepSEA训练数据集解决了基因组学中一个关键问题,即如何准确预测非编码变异对染色质状态的功能影响。传统方法难以捕捉单核苷酸变异对染色质特征的细微影响,而该数据集通过提供大规模、高质量的染色质特征标签,使得深度学习模型能够以单核苷酸分辨率进行预测。这一突破不仅提升了非编码变异功能注释的准确性,还为理解基因组调控机制提供了新的工具。该数据集的应用推动了基因组功能注释领域的发展,并为个性化医疗和疾病研究提供了重要支持。
衍生相关工作
DeepSEA训练数据集衍生了许多经典研究工作。例如,基于该数据集开发的DeepSEA模型被广泛应用于非编码变异的功能预测,并成为该领域的基准工具。此外,研究人员还利用该数据集开发了改进的深度学习模型,如DanQ和Basset,这些模型在染色质特征预测方面表现出更高的性能。该数据集还启发了其他基因组功能注释工具的开发,如DeepBind和DeepMotif,这些工具在转录因子结合位点预测和DNA序列模式识别方面取得了显著进展。DeepSEA数据集的影响力不仅限于基因组学,还为深度学习在生物信息学中的应用提供了范例。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Cifar-100

Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。

www.cs.toronto.edu 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录