Tx-Evaluation

Name: Tx-Evaluation
Creator: 巴黎高等师范学院
Published: 2024-10-18 02:27:51
License: 暂无描述

arXiv2024-10-18 更新2024-10-22 收录

下载链接：

https://github.com/valence-labs/Tx-Evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

Tx-Evaluation数据集由巴黎高等师范学院的Valence Labs创建，旨在评估转录组学基础模型在扰动分析中的性能。该数据集整合了来自不同测序技术和细胞系的公开数据，用于评估模型在处理中大规模扰动数据时的表现。数据集的创建过程涉及对现有生物任务的整理和新评估任务的引入，如结构完整性。该数据集主要应用于生物扰动分析领域，旨在解决现有模型在理解和预测生物扰动效应方面的不足。

The Tx-Evaluation dataset was created by Valence Labs at École Normale Supérieure de Paris, aiming to evaluate the performance of foundational transcriptomic models in perturbation analysis. This dataset integrates publicly available data from diverse sequencing technologies and cell lines to assess model performance when handling medium-to-large scale perturbation data. The dataset creation process involves curating existing biological tasks and introducing novel evaluation tasks such as structural integrity. Primarily applied in the field of biological perturbation analysis, this dataset is designed to address the limitations of current models in understanding and predicting the effects of biological perturbations.

提供机构：

巴黎高等师范学院

创建时间：

2024-10-18

原始信息汇总

数据集概述

数据准备

数据目录结构：
- 在项目根目录下创建datasets文件夹。
- 在datasets文件夹中创建以下子目录：
  - eval
  - train
  - test1
  - test2
数据文件：
- 将完整的数据文件（anndata h5ad格式）放入datasets/eval目录中。
- 支持的数据集包括replogle_2022和l1000_crispr，也可以使用自定义的扰动数据进行评估。

嵌入准备

嵌入提取：
- 使用要评估的模型从datasets/eval中的adata提取嵌入。
- 将嵌入保存到adata.obsm[your_model_key]中，形状和顺序应与原始数据adata.X和adata.obs相同。

数据分割

训练和测试数据分割：
- 将数据分割为训练集和测试集。
- 测试集test1用于线性探测和knn，共享与训练集相同的扰动，但具有不同的批次。
- 测试集test2用于重建，具有与训练集不同的扰动和批次。

配置文件

自定义配置文件：
- 如果使用与replogle_2022和l1000_crispr不同的评估数据集，需要创建新的配置文件。
- 参考./cfg/config/replogle_eval.yaml和./cfg/config/replogle_eval_reconstruct.yaml模板创建配置文件。

运行代码

运行命令：
- 从根目录运行评估代码：
  
  python main_eval.py --config ./cfg/config/replogle_eval.yaml --seed {{SEED}} --run_name {{JOB_NAME}} --eval_method {{JOB_TYPE}} --obsm_key {{OBSM_KEY}}
- 替换{{JOB_TYPE}}为选择的评估方法（bmdb, bmdb_precision, reconstruct, linear, knn, ilisi）。
- 如果使用SLURM进行作业管理，运行以下命令：
  
  bash cfg/schedulers/submit_jobs.sh
  
  或
  
  bash cfg/schedulers/submit_arrays.sh

搜集汇总

数据集介绍

构建方式

Tx-Evaluation数据集通过整合多种公共数据集构建而成，这些数据集来自不同的测序技术和细胞系，旨在评估模型的性能。数据集的构建包括从单细胞RNA测序（scRNA-Seq）、批量RNA测序（bulk RNA-Seq）和空间转录组学（spatial transcriptomics）等多种技术中收集数据，并将其整合到一个统一的框架中。通过这种方式，数据集能够全面评估模型在处理不同类型和来源的转录组数据时的表现。

特点

Tx-Evaluation数据集的一个显著特点是其多样性和广泛性。它包含了来自不同细胞系和测序技术的数据，涵盖了从基因敲除到化学扰动等多种生物扰动类型。此外，数据集还引入了结构完整性（Structural Integrity）这一新的评估任务，用于评估模型在基因活性维度上对控制和扰动条件之间关系的保留程度。这种多样性和新颖的评估任务使得Tx-Evaluation成为评估转录组基础模型在扰动分析中性能的理想工具。

使用方法

Tx-Evaluation数据集的使用方法主要包括模型训练、验证和测试。研究者可以使用该数据集来训练和验证各种转录组基础模型，如scVI、PCA、Geneformer等，并通过一系列的评估任务来比较这些模型在扰动分析中的表现。具体使用时，可以将数据集分为训练集和测试集，利用训练集对模型进行训练，然后在测试集上进行性能评估。此外，数据集还提供了详细的实验设置和评估指标，帮助研究者系统地分析和比较不同模型的性能。

背景与挑战

背景概述

Tx-Evaluation数据集由Valence Labs、Ecole Normale Supérieure Paris、Montreal和Recursion等机构的研究人员创建，旨在评估转录组基础模型在扰动分析中的性能。该数据集的构建背景源于对基因、化合物及其在生物体中相互作用关系的理解仍受限于技术约束和生物数据的复杂性。尽管深度学习在利用多种数据类型探索这些关系方面显示出潜力，但转录组学由于其高噪声水平和有限的数据可用性，仍未得到充分利用。近年来，转录组测序技术的进步为揭示有价值的见解提供了新机会，特别是随着许多新的转录组基础模型的兴起，但尚未有基准来稳健评估这些新兴模型在扰动分析中的有效性。Tx-Evaluation数据集通过编译来自不同测序技术和细胞系的多样化公共数据集，旨在评估模型性能，并识别出在理解生物扰动方面优于现有基础模型的scVI和PCA等模型。

当前挑战

Tx-Evaluation数据集面临的挑战主要集中在两个方面：一是解决领域问题的挑战，即如何有效地利用转录组数据进行扰动分析；二是数据集构建过程中遇到的挑战，包括高噪声水平、数据稀缺性以及不同批次间的技术差异。转录组数据的高噪声和低信噪比使得模型难以准确捕捉基因表达的细微变化。此外，由于转录组数据的稀缺性，模型在训练过程中容易过拟合，导致在新数据上的泛化能力不足。不同批次间的技术差异也引入了额外的噪声和偏差，增加了数据整合和批次效应校正的难度。因此，Tx-Evaluation数据集的构建和应用需要克服这些技术难题，以实现对转录组基础模型在扰动分析中性能的准确评估。

常用场景

经典使用场景

Tx-Evaluation数据集在转录组学基础模型的扰动分析中发挥了关键作用。该数据集通过整合来自不同测序技术和细胞系的多样化公共数据集，评估了预训练基础模型在扰动分析任务中的性能。其经典使用场景包括比较scVI和PCA等模型在理解生物扰动方面的有效性，特别是在实际应用中。

实际应用

Tx-Evaluation数据集在实际应用中具有广泛的应用场景，特别是在药物发现和治疗开发领域。通过评估模型在扰动分析任务中的表现，研究人员可以更好地理解基因和化合物之间的相互作用，从而加速新药的开发过程。此外，该数据集还可用于优化现有的生物信息学工具和算法，提高其在实际应用中的准确性和可靠性。

衍生相关工作

Tx-Evaluation数据集的发布催生了一系列相关的经典工作，特别是在转录组学和深度学习模型的结合方面。例如，基于该数据集的研究工作推动了scVI和PCA等模型在单细胞RNA测序数据分析中的应用，并促进了Transformer架构在基因表达数据分析中的发展。此外，该数据集还激发了对扰动分析任务的深入研究，推动了相关评估指标和方法的标准化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集