five

LOCO-EPI

收藏
arXiv2025-04-01 更新2025-04-07 收录
下载链接:
https://github.com/malikmtahir/EPI
下载链接
链接失效反馈
官方服务:
资源简介:
LOCO-EPI数据集是由加拿大曼尼托巴大学等研究机构创建的,用于增强子-启动子相互作用预测的基准数据集。该数据集包含了来自6个不同人体细胞系的217685个样本,采用留一染色体法划分训练集和测试集,以避免数据集在训练和测试时的基因组区域重叠,确保性能评估的公平性。数据集涵盖了10,385个相互作用的增强子-启动子对和207,300个非相互作用的对,适用于评估EPI预测模型的性能。

The LOCO-EPI dataset was developed by research institutions such as the University of Manitoba in Canada, and serves as a benchmark dataset for enhancer-promoter interaction (EPI) prediction. This dataset contains 217,685 samples from 6 distinct human cell lines. The leave-one-chromosome-out strategy is adopted to split the training and test sets, which prevents genomic region overlap between the training and test subsets and ensures the fairness of performance evaluation. The dataset covers 10,385 interacting enhancer-promoter pairs and 207,300 non-interacting pairs, and is applicable for evaluating the performance of EPI prediction models.
提供机构:
加拿大曼尼托巴大学电气与计算机工程系, 美国中东大学工程学院, 加拿大曼尼托巴大学生物化学与医学遗传学系, 日本东京大学研究生院科学与工程学院生物物理学与生物化学系
创建时间:
2025-04-01
搜集汇总
数据集介绍
main_image_url
构建方式
LOCO-EPI数据集的构建采用了Leave-one-chromosome-out (LOCO)交叉验证策略,旨在解决传统随机拆分方法中存在的基因组区域重叠问题。该数据集基于TargetFinder提供的原始数据,涵盖了六种人类细胞系(HUVEC、GM12878、IMR90、HeLa-S3、NHEK和K562),共包含217,685个增强子-启动子(EP)对。通过23折交叉验证,每次将一条染色体的EP对作为测试集,其余22条染色体的EP对作为训练集,确保了训练和测试数据在基因组区域上的完全独立性。
特点
LOCO-EPI数据集的主要特点在于其严格的LOCO交叉验证设计,有效避免了传统随机拆分方法中因基因组区域重叠导致的信息泄漏问题。数据集覆盖了多种细胞系,每个EP对的增强子序列长度为3000 bp,启动子序列长度为2000 bp,并包含了交互和非交互的EP对。此外,该数据集还提供了详细的染色体拆分信息,为研究增强子-启动子交互的跨染色体泛化能力提供了可靠的基础。
使用方法
LOCO-EPI数据集的使用方法主要包括以下步骤:首先,研究人员可以从公开的GitHub仓库下载数据集,其中已按LOCO策略预拆分好训练和测试集。其次,在模型训练时,需采用23折交叉验证,每次使用一条染色体的EP对作为测试集,其余染色体作为训练集。最后,模型性能评估应基于AUC-ROC等指标,重点关注其在跨染色体预测中的泛化能力。该数据集特别适用于验证深度学习模型在避免基因组区域过拟合方面的表现,并为增强子-启动子交互预测研究提供了标准化基准。
背景与挑战
背景概述
LOCO-EPI数据集由Muhammad Tahir等研究人员于2025年创建,旨在解决增强子-启动子相互作用(EPI)预测中的基准测试问题。该数据集由曼尼托巴大学、美国中东大学和东京大学的研究团队共同开发,主要关注哺乳动物和脊椎动物基因组中增强子与启动子相互作用的预测。传统方法在随机分割数据集时存在信息泄漏问题,导致模型性能被高估。LOCO-EPI通过引入留一染色体交叉验证(LOCO)方法,避免了训练集和测试集之间的基因组区域重叠,从而提供了更公平的性能评估标准。该数据集对基因调控、疾病机制研究和深度学习模型在基因组学中的应用具有重要影响。
当前挑战
LOCO-EPI数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:传统EPI预测方法因随机分割数据集导致信息泄漏,性能评估不准确。LOCO-EPI通过LOCO方法解决了这一问题,但模型在跨染色体预测时性能显著下降,表明现有模型对基因组区域的特异性过拟合。2) 构建过程的挑战:数据集的构建需要处理六种人类细胞系中的217,685个样本,包括10,385个相互作用和207,300个非相互作用的增强子-启动子对。确保数据分割的公平性和避免信息泄漏是主要技术难点,同时还需整合多分支神经网络架构以提升模型的泛化能力。
常用场景
经典使用场景
在基因组学和生物信息学领域,LOCO-EPI数据集为研究增强子-启动子相互作用(EPI)提供了全新的基准测试范式。通过采用留一染色体交叉验证(LOCO)方法,该数据集有效避免了传统随机划分方法中因基因组区域重叠导致的信息泄漏问题,为深度学习模型提供了更加公平和可靠的性能评估环境。
衍生相关工作
LOCO-EPI数据集推动了EPI预测领域一系列创新工作的产生。基于该数据集,研究者开发了混合多分支神经网络架构MHybrid,将k-mer特征与传统深度学习相结合,显著提高了模型的泛化能力。该数据集还促进了对比学习、数据增强等新方法在基因组学中的应用探索,为后续研究提供了重要参考。
数据集最近研究
最新研究方向
近年来,LOCO-EPI数据集在增强子-启动子相互作用(EPI)预测领域引起了广泛关注。该数据集通过引入“留一染色体出”(LOCO)交叉验证范式,解决了传统随机分割方法中因基因组区域重叠导致的信息泄漏问题,为EPI预测提供了更公平的评估基准。前沿研究集中在开发混合多分支神经网络架构,结合k-mer特征与深度学习,以提升模型在LOCO设置下的泛化能力。这一方向不仅揭示了先前研究中性能高估的现象,还为理解基因调控的分子机制提供了更可靠的计算工具。LOCO-EPI的发布促进了领域内标准化评估,推动了从序列特征到三维基因组学的多模态研究。
相关研究论文
  • 1
    LOCO-EPI: Leave-one-chromosome-out (LOCO) as a benchmarking paradigm for deep learning based prediction of enhancer-promoter interactions加拿大曼尼托巴大学电气与计算机工程系, 美国中东大学工程学院, 加拿大曼尼托巴大学生物化学与医学遗传学系, 日本东京大学研究生院科学与工程学院生物物理学与生物化学系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作