fruit fly DNA data
收藏github2020-10-19 更新2024-05-31 收录
下载链接:
https://github.com/vicely07/Deep-Learning-on-TAD-dataset
下载链接
链接失效反馈官方服务:
资源简介:
果蝇DNA数据来自Gene Expression Omnibus (GEO),包含约28,000个训练序列和2000个测试序列。每个序列分析了所有可能的9-mer组合,总计256种。
The Drosophila DNA dataset is sourced from the Gene Expression Omnibus (GEO), comprising approximately 28,000 training sequences and 2,000 test sequences. Each sequence has been analyzed for all possible 9-mer combinations, totaling 256 types.
创建时间:
2019-04-05
原始信息汇总
数据集概述
数据来源
- 来源: 水果飞DNA数据来自Gene Expression Omnibus (GEO)
- 数据量: 约28,000个训练序列和2000个测试序列
数据处理
- 特征分析: 每个序列分析所有可能的9-mer组合,总计256种
模型应用
- 模型类型: 使用三种深度学习模型进行预测
- 1layerCNN: 包含输入层、CNN层、池化层、扁平层和输出层
- 1layerCNN_LSTM: 包含输入层、CNN层、池化层、双向LSTM层和输出层
- 1layerCNN_Dense: 包含输入层、CNN层、池化层、2个密集层和带有sigmoid激活函数的输出层
模型评估
- 评估指标: 使用六种不同的性能指标(auc、acc、mcc、precision、recall、f1 score)评估12种不同的深度学习架构
- 结果: 通过超参数优化,一种包含三个卷积层和长短期记忆层的深度学习模型达到96%的准确率,优于特征基础模型的91%和现有方法的73-78%
结论
- 模型性能: 深度学习模型在准确率上显著优于特征基础模型和现有方法
- 生物学发现: 在64个模体中,12个匹配已知的果蝇注释模体,其中Beaf-32模体在TAD边界中表现出强富集,与先前报告一致
未来研究方向
- 研究目标: 探索这些模体之间的相互作用及其对深度学习模型预测能力的贡献
搜集汇总
数据集介绍

构建方式
该数据集构建于果蝇DNA序列的基础之上,数据来源于基因表达综合数据库(GEO)。数据集包含约28,000条训练序列和2,000条测试序列,每条序列均被分析以提取所有可能的9-mer组合,共计256种。通过这种方式,数据集能够全面覆盖果蝇基因组中的拓扑关联域(TAD)边界信息,为后续的深度学习模型训练提供了丰富的输入数据。
使用方法
该数据集的使用方法主要包括数据预处理、模型训练和性能评估。用户可以从GEO下载原始数据,并通过分析9-mer组合生成特征向量。随后,可以使用多种深度学习模型(如卷积神经网络和长短期记忆网络)进行训练,并通过交叉验证和超参数优化来提升模型性能。最终,用户可以通过评估模型的AUC、准确率、召回率等指标,验证模型在预测TAD边界方面的有效性。
背景与挑战
背景概述
果蝇DNA数据集由Vi Ly、Shawn Olichwier和John Henderson等研究人员在Benjamin Soibam的指导下创建,旨在探索拓扑关联域(TADs)在基因表达调控中的作用。TADs是DNA序列中自相互作用的区域,其边界在不同细胞类型中高度保守,但其内部组织可能因细胞类型而异。该数据集源自基因表达综合数据库(GEO),包含约28,000条训练序列和2,000条测试序列,每条序列均被分析为256种可能的9-mer组合。通过深度学习模型,研究人员揭示了TAD边界在果蝇基因组中的重要性,并发现了与TAD边界相关的多个已知和未知的DNA基序。
当前挑战
果蝇DNA数据集的研究面临多重挑战。首先,TADs的功能尚未完全明确,其边界的破坏可能导致基因表达异常,进而引发疾病,因此如何准确预测TAD边界是一个关键问题。其次,数据集的构建过程中,研究人员需要处理大量复杂的DNA序列数据,并设计高效的深度学习模型以捕捉TAD边界的特征。此外,尽管深度学习模型在预测TAD边界方面表现出色,但其可解释性较低,难以完全揭示TAD边界形成的分子机制。未来的研究需要进一步探索TAD边界与DNA基序之间的相互作用,以全面理解其在基因调控中的作用。
常用场景
经典使用场景
在基因组学研究中,fruit fly DNA数据集被广泛应用于探索拓扑关联域(TADs)的边界及其功能。通过深度学习模型,研究者能够分析果蝇DNA序列中的9-mer组合,进而预测TAD边界的位置。这一数据集为理解TADs在不同细胞类型中的保守性及其对基因表达的影响提供了重要支持。
解决学术问题
该数据集解决了基因组学领域中关于TAD边界功能及其在基因表达调控中作用的难题。通过深度学习模型的优化,研究者能够准确预测TAD边界,揭示其与疾病相关的基因表达异常。这一成果不仅提升了TAD研究的精度,还为相关疾病的分子机制研究提供了新的视角。
实际应用
在实际应用中,fruit fly DNA数据集为生物医学研究提供了重要工具。通过分析TAD边界及其相关基序,研究者能够识别与疾病相关的基因调控网络,进而为疾病诊断和治疗提供潜在的分子靶点。此外,该数据集还可用于开发基于深度学习的基因组分析工具,推动精准医学的发展。
数据集最近研究
最新研究方向
在基因组学领域,果蝇DNA数据集的研究正逐渐聚焦于拓扑关联域(TADs)的边界识别及其功能解析。TADs作为DNA序列中的自相互作用区域,其边界的保守性暗示了其在基因表达调控中的关键作用。近期研究通过深度学习模型,如卷积神经网络(CNN)与长短期记忆网络(LSTM)的结合,显著提升了TAD边界预测的准确性,达到了96%的准确率。这一成果不仅超越了传统特征模型的表现,还为理解TADs在基因调控网络中的角色提供了新的视角。此外,研究还揭示了与TAD边界相关的特定基序,如Beaf-32,这些发现与先前关于果蝇TAD边界中基序富集的报告相呼应。未来的研究将进一步探索这些基序之间的相互作用及其对TAD功能的贡献,以期在基因组结构和功能之间建立更紧密的联系。
以上内容由遇见数据集搜集并总结生成



