Transposable Elements Benchmark

Name: Transposable Elements Benchmark
Creator: 哥伦比亚大学
Published: 2025-07-29 18:06:17
License: 暂无描述

arXiv2025-07-29 更新2025-07-31 收录

下载链接：

https://github.com/rrkhan/HGE

下载链接

链接失效反馈

官方服务：

资源简介：

Transposable Elements Benchmark是一个多物种基准数据集，旨在研究转座元件，这是基因组中一个重要但研究不足的组成部分，具有重要的进化意义。该数据集由42个真实世界数据集组成，用于解决基因组学中的基本挑战。数据集的创建过程包括使用完全双曲卷积神经网络（HCNNs）对DNA序列进行嵌入，并使用这些模型来模拟和测试生物序列的合理数据生成过程。该数据集可用于基因组表示学习的双曲框架，旨在解决基因组解释和下游分析中的关键问题。

Transposable Elements Benchmark is a multi-species benchmark dataset aimed at investigating transposable elements—an important yet understudied component of the genome that holds critical evolutionary significance. This dataset comprises 42 real-world datasets designed to address fundamental challenges in genomics. The dataset creation process involves using fully hyperbolic convolutional neural networks (HCNNs) to generate embeddings for DNA sequences, and leveraging these models to simulate and test plausible data generation processes for biological sequences. This dataset can be applied to hyperbolic frameworks for genomic representation learning, targeting key issues in genome interpretation and downstream analysis.

提供机构：

哥伦比亚大学

创建时间：

2025-07-29

原始信息汇总

Hyperbolic Genome Embeddings 数据集概述

数据集简介

数据集名称：Hyperbolic Genome Embeddings (HGE)
用途：用于基因组嵌入的双曲模型研究
相关论文：Hyperbolic Genome Embeddings 论文的补充代码

技术依赖

开发语言：Python (>=3.8)
主要框架：Pytorch 1.13 (cuda 11.7)
依赖库：
- HyperbolicCV (用于Lorentz模型中的HNNs网络组件)
- embedders (用于双曲性探索中的点采样)

数据集内容

包含Transposable Elements Benchmark (TEB)数据集
- 下载地址：https://drive.google.com/drive/folders/1P1FSoHGXRj-ub9D1O0uyUXp5iXp7PAAA?usp=sharing
- 数据集构建细节参考HEB论文
- 包含统计摘要图表：figures/TEB_summ_stats.png

使用方式

分类任务：
- 使用配置文件进行训练（示例配置文件：code/classification/config/HCNN_SingleK_TEB.txt）
- 支持命令行参数覆盖配置（如输出目录、设备选择、数据集指定等）

搜集汇总

数据集介绍

构建方式

Transposable Elements Benchmark（TEB）数据集的构建采用了多物种基因组注释整合策略，通过PlantRep数据库获取植物转座元件注释，并结合人类参考基因组（GRCh38.p12）的GENCODE和Ensembl注释。正样本集由特定转座元件类型的全序列构成，负样本集通过随机采样基因组非重叠区域生成，确保正负样本数量平衡。数据集采用染色体级划分策略，将水稻（Oryza glumipatula）8/9号和人类17-22号染色体作为验证/测试集，其余染色体用于训练，以保持进化同源关系的独立性。

使用方法

使用TEB时需加载one-hot编码的DNA序列，输入通道数固定为4（对应ATCG核苷酸）。建议采用论文中的染色体划分方案进行交叉验证，以评估模型对潜在系统发育结构的泛化能力。对于超几何嵌入模型（如HCNN），可直接将序列投影至洛伦兹流形进行卷积运算；传统欧式模型则需通过φ: R4×L→L4×L映射预处理。下游分类任务推荐采用马修斯相关系数（MCC）作为核心评估指标，以应对类别不平衡问题。

背景与挑战

背景概述

Transposable Elements Benchmark (TEB) 是由哥伦比亚大学的研究人员Raiyan R. Khan、Philippe Chlenski和Itsik Pe’er在2025年ICLR会议上提出的一个创新性基因组数据集。该数据集专注于转座因子（Transposable Elements, TEs）的研究，转座因子是基因组中具有深远进化意义但尚未充分研究的组成部分。TEB的创建旨在探索转座因子在基因组功能和调控中的关键作用，填补了当前深度学习在基因组序列建模中对转座因子研究的空白。该数据集通过提供多物种的转座因子分类任务，为基因组表示学习提供了新的研究方向，并在计算生物学领域产生了重要影响。

当前挑战

TEB数据集面临的主要挑战包括两方面：1) 领域问题的挑战：转座因子在基因组中的高度重复性和动态性使得其分类和功能预测具有极高的复杂性，传统的欧几里得空间模型难以有效捕捉其层次化进化结构；2) 构建过程的挑战：数据集构建过程中需要处理不同物种间转座因子的巨大差异，确保序列标注的准确性，并解决基因组数据的高维度特性与计算效率之间的平衡问题。此外，如何将双曲几何的归纳偏置与转座因子的进化特性相结合，也是模型构建中的核心挑战。

常用场景

经典使用场景

Transposable Elements Benchmark（TEB）数据集在基因组学研究中被广泛用于探索转座子（TEs）的功能和进化意义。该数据集通过整合植物和人类基因组中的转座子序列，为研究人员提供了一个标准化的评估平台。其经典使用场景包括转座子识别、分类以及进化轨迹分析，特别是在研究转座子对基因调控网络的影响时，TEB数据集能够提供高质量的序列标注和分类任务。

解决学术问题

TEB数据集解决了基因组学中多个关键学术问题，尤其是在转座子这一长期被忽视的基因组组成部分的研究上。通过提供多物种的转座子序列分类任务，该数据集帮助研究人员理解转座子在基因组可塑性、基因表达调控以及疾病发生中的作用。此外，TEB还为开发新型深度学习模型（如双曲卷积神经网络）提供了基准测试平台，推动了基因组表示学习领域的发展。

实际应用

在实际应用中，TEB数据集被用于开发高效的基因组注释工具，特别是在农业和医学领域。例如，通过分析植物基因组中的转座子分布，研究人员能够优化作物育种策略；而在人类基因组中，TEB的应用有助于识别与疾病相关的转座子插入事件。此外，该数据集还被用于训练轻量级基因组分类模型，为资源受限的研究环境提供了可行解决方案。

数据集最近研究