PerturBench

Name: PerturBench
Creator: Altos Labs
Published: 2024-08-20 15:40:20
License: 暂无描述

arXiv2024-08-20 更新2024-08-22 收录

下载链接：

https://github.com/altoslabs/perturbench

下载链接

链接失效反馈

官方服务：

资源简介：

PerturBench是由Altos Labs开发的一个综合框架，旨在标准化细胞扰动分析领域的基准测试。该数据集包含多种扰动模式的数据，覆盖了化学和遗传扰动，以及组合扰动，数据量从数十万到数百万不等。数据集的创建过程涉及对现有数据集的筛选和预处理，以模拟真实世界的挑战。PerturBench主要应用于计算方法预测基因表达的扰动效应，旨在通过高吞吐量和高内容遗传及化学筛选，推动疾病靶点发现的研究。

PerturBench is a comprehensive framework developed by Altos Labs, aimed at standardizing benchmarking practices in the field of cellular perturbation analysis. This dataset includes data across diverse perturbation modalities, covering chemical, genetic, and combinatorial perturbations, with sample sizes ranging from hundreds of thousands to millions. The development of PerturBench entails screening and preprocessing existing datasets to simulate real-world analytical challenges. Primarily applied to computational prediction of perturbation effects on gene expression, PerturBench aims to advance research into disease target discovery via high-throughput and high-content genetic and chemical screening.

提供机构：

Altos Labs

创建时间：

2024-08-20

搜集汇总

数据集介绍

构建方式

PerturBench 是一个为预测单细胞中扰动效应而设计的综合框架，旨在标准化这一快速发展的领域的基准测试。该框架包括一个用户友好的平台、多样化的数据集、用于公平模型比较的指标以及详细的性能分析。通过对已发表和基线模型的广泛评估，揭示了模式或后验崩溃等局限性，并强调了在传统指标（如 RMSE）之外评估扰动排序的等级指标的重要性。研究发现，简单模型可以优于更复杂的方法。这项基准测试练习为模型评估设定了新标准，支持鲁棒的模型开发，并推动了这些模型利用高通量和高效能的遗传和化学筛选进行疾病靶点发现的可能性。

使用方法

PerturBench 的使用方法包括以下步骤：首先，选择合适的数据集和任务；其次，使用数据加载器进行批量计算和模型训练；然后，从模型库中选择合适的模型或开发新的模型；接着，使用评估 API 和指标进行模型评估；最后，根据评估结果优化模型并重复训练和评估过程，直到达到满意的性能。PerturBench 还提供了代码库和文档，以支持研究人员进行模型开发和基准测试。

背景与挑战

背景概述

细胞扰动分析在疾病因果驱动因素的揭示和潜在治疗方法的识别方面发挥着重要作用。PerturBench数据集，由Yan Wu等人于2024年提出，旨在通过化学治疗或基因修饰对细胞系进行扰动实验，以标准化这一快速发展的领域的基准测试。PerturBench框架包括一个用户友好的平台、多样化的数据集、公平模型比较的指标以及详细的性能分析。通过对已发布和基线模型的广泛评估，揭示了模型可能存在的模式或后验崩溃等局限性，并强调了使用排名指标来评估扰动排序的重要性。研究结果表明，简单模型可以优于更复杂的方法。这一基准测试练习为模型评估设定了新标准，支持稳健的模型开发，并推动这些模型利用高通量和多组学遗传和化学筛选来发现疾病靶点。

当前挑战

PerturBench数据集和相关模型面临的主要挑战包括：1)所解决的领域问题，即预测细胞中扰动的效果，这要求模型能够准确地模拟和预测扰动对基因表达的影响；2)构建过程中所遇到的挑战，包括数据集的多样性和复杂性、模型评估指标的全面性和准确性，以及模型在实际应用中的泛化能力。此外，如何处理和评估模型中存在的模式或后验崩溃现象，以及如何有效地利用额外的训练数据和应对数据不平衡的情况，也是当前面临的挑战。

常用场景

经典使用场景

在单细胞水平上预测扰动效应，为疾病靶点发现和治疗策略制定提供有力支持。

解决学术问题

PerturBench通过标准化的基准测试框架，解决了现有模型在性能评估方面的不一致性问题，并揭示了某些模型在处理实际生物数据时的局限性。

实际应用

PerturBench可以应用于药物筛选和基因编辑领域，通过预测扰动效应，帮助研究人员更有效地识别疾病靶点和潜在的治疗方法。

数据集最近研究