gene-embedding-benchmarks

github2025-02-02 更新2025-02-10 收录

下载链接：

https://github.com/ylaboratory/gene-embedding-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于基准测试基因嵌入方法的代码和数据，这些嵌入方法来源于氨基酸序列、基因表达谱、蛋白质-蛋白质相互作用网络和生物医学文献，用于预测单个基因属性、基因对相互作用和基因集关系。

This dataset contains code and data for benchmarking gene embedding methods. These embedding methods are derived from amino acid sequences, gene expression profiles, protein-protein interaction networks and biomedical literature, and are used to predict single-gene attributes, gene-pair interactions and gene-set relationships.

创建时间：

2025-01-24

原始信息汇总

基因嵌入基准数据集

概述

该数据集用于评估38种经典和最先进的基因嵌入方法在一系列功能预测任务中的表现。这些嵌入来自氨基酸序列、基因表达谱、蛋白质-蛋白质相互作用网络和生物医学文献等数据源，并针对个体基因属性、基因对相互作用和基因集关系进行预测。

组织结构

bin: 包含基准实验的二进制和中间文件，包括我们测试中使用的折叠和保留文件，保存为pkl文件。
data: 包含用于基准测试的数据库和元数据
- embeddings: 来自各种方法的基因预处理的嵌入
  - intersect: 所有方法共有的基因的预处理嵌入（在zenodo上）
  - all_genes: 包含所有基因的预处理嵌入
- gmt: 用于基准测试的基因集文件
- matched_pairs: 用于将一个注释映射到另一个的文件
- obo: 用于分层生物关系的本体文件
- paired_gene_interaction_data: 用于基准测试的成对基因相互作用数据（可从BioGRID下载）
- slim_sets: 注释项的子集
- embed_meta.csv: 详细说明嵌入方法、训练输入类型、算法和维度的元数据文件
results: 包含基因水平和基因对基准测试的结果
- andes_results: 包含基因集基准测试的分数（在zenodo上）
src: 包含用于预处理、总结和基准测试嵌入的代码
- gene_level_benchmark: 用于基准测试疾病基因预测（OMIM）和基因功能预测（GO）的代码
- gene_pair_benchmark: 用于基准测试遗传相互作用（例如，SL/NG）和转录因子目标（TF）预测的代码
- gene_set_benchmark: 用于基准测试匹配途径（GO/KEGG）和疾病/组织（OMIM/Brenda）的代码
- preprocess_embedding: 用于预处理嵌入的代码
- summary.py: 用于总结测试嵌入的代码

引用

Zhong J, Li L, Dannenfelser R, and Yao V. bioRxiv (2025) https://doi.org/10.1101/2025.01.29.635607

搜集汇总

数据集介绍

构建方式

该数据集的构建涉及对38种经典及前沿基因嵌入方法的全面评估，这些方法基于氨基酸序列、基因表达谱、蛋白质-蛋白质相互作用网络以及生物医学文献等多种数据源。评估过程中，采用了个体基因属性、基因对相互作用以及基因集合关系等多种功能预测任务，旨在将复杂生物数据集转化为紧凑的向量表示，从而高效地进行功能预测。

使用方法

使用该数据集时，用户需先通过conda创建并激活虚拟环境。随后，下载ANDES工具并按照其仓库说明进行配置和运行。数据集中的脚本包含Python文件和Jupyter Notebook文件，能够执行基准测试并生成相关图表。用户可通过指定脚本路径使用Python直接运行脚本，或通过Jupyter环境打开Notebook文件。大部分脚本依赖于相应的helper.py文件，其中包含分析过程中使用的辅助函数。

背景与挑战

背景概述

在计算生物学领域，基因嵌入技术作为一种变革性工具，它能够高效地将复杂的生物学数据转化为紧凑的向量表示形式。gene-embedding-benchmarks数据集的创建，旨在对38种经典及先进的基因嵌入方法进行全面的基准测试，评估其在功能预测任务中的性能。该数据集由衷中杰、李莉、Dannenfelser R和姚伟等研究人员于2025年发表，通过分析来自氨基酸序列、基因表达谱、蛋白质-蛋白质相互作用网络和生物医学文献等数据源生成的嵌入，研究其在预测单个基因属性、成对基因相互作用以及基因集关系方面的表现。研究结果表明，基于生物医学文献的嵌入在通用预测任务中表现最为突出，而基于氨基酸序列的嵌入则在功能和遗传相互作用预测中更为优越。该数据集的创建对推动基因嵌入技术在下游生物学预测任务中的应用具有重要意义。

当前挑战

在构建gene-embedding-benchmarks数据集的过程中，研究人员面临了多项挑战。首先，集成和统一不同数据源的嵌入表示形式是一项复杂的工作，因为它们在数据类型和结构上存在差异。其次，评估和比较不同嵌入方法在功能预测任务中的性能，需要设计一系列精确且全面的基准测试。此外，数据集的构建还涉及到数据预处理、特征选择和嵌入维度确定等问题，这些都需要研究人员在保证数据质量的同时，确保结果的准确性和可重复性。在解决领域问题方面，该数据集需要应对的挑战包括如何准确预测基因的功能、相互作用以及疾病关联等复杂生物学问题。

常用场景

经典使用场景

在计算生物学领域，基因嵌入技术已成为一种变革性工具，该数据集gene-embedding-benchmarks便是针对此类技术的一个综合评估平台。其经典使用场景在于评估38种经典及最新的基因嵌入方法在功能预测任务中的性能，涉及单个基因属性、成对基因交互以及基因集关系等方面。

解决学术问题

该数据集解决了如何选择最合适的基因嵌入方法以进行功能预测的学术问题。通过分析不同数据源（如氨基酸序列、基因表达谱、蛋白质-蛋白质相互作用网络和生物医学文献）生成的嵌入向量在功能预测任务中的表现，为研究人员提供了关于基因嵌入方法的选择及其适用场景的指导，对于优化生物信息学研究流程具有重要意义。

实际应用

在实践应用方面，gene-embedding-benchmarks数据集已被广泛用于生物信息学研究中，帮助研究人员在诸如疾病基因预测、基因功能预测、遗传相互作用预测以及转录因子目标预测等任务中，选择和利用最有效的基因嵌入方法。

数据集最近研究