AssayBench

github2026-05-14 更新2026-05-15 收录

下载链接：

https://github.com/Genentech/AssayBench

下载链接

链接失效反馈

官方服务：

资源简介：

AssayBench是一个用于评估机器学习模型在表型筛选预测上的基准测试数据集，包含CRISPR屏幕的描述、相关基因和分数，用于模型排名评估。

AssayBench is a benchmark dataset for evaluating machine learning models on phenotypic screening prediction tasks. It includes descriptions of CRISPR screens, associated genes and corresponding scores, and is used for model ranking assessment.

创建时间：

2026-04-14

原始信息汇总

好的，这是对AssayBench数据集的总结：

AssayBench 数据集概述

AssayBench是一个用于评估机器学习模型在表型筛选预测任务上表现的基准测试数据集。该数据集提供了来自CRISPR筛选实验的数据，旨在衡量模型根据实验描述对基因进行排序的能力。

数据内容与结构

数据集来源：BioGRID数据库中的CRISPR筛选实验数据。
数据拆分：数据集提供了基于年份的拆分方式（split_type="year"），并划分为训练集（train）、验证集（val）、测试集（test）和一个最新数据集（novel_dataset，例如LaTest）。
数据字段：每个筛选实验样本是一个字典，包含以下关键字段：
- question: 描述筛选实验和排序任务的提示文本。
- relevance_genes: 筛选文库中的所有基因列表。
- relevance_scores: 每个基因的百分位得分（越高表示越相关）。
- hit: 布尔列表，指示每个基因是否为筛选中的“命中”基因。
- phenotype: 完整的表型描述。
- cleaned_phenotype: 粗粒度的表型类别（例如，Fitnes / Proliferation / Viability）。
- cell_type 和 cell_line: 实验所使用的细胞类型和细胞系名称。
- screen_type: 筛选类型（例如，正向筛选，负向筛选）。
- library_methodology: 筛选方法（例如，基因敲除，基因激活）。

使用与评估

数据加载：通过Python包assaybench中的AssayBenchDataset类加载数据。可以自定义prompt_template来格式化question字段。
模型评估：使用RankingMetrics类进行评估。模型需要输出一个预测的基因排序列表（list[str]），然后与真实基因和得分一起传入RankingMetrics.evaluate()方法。
评估指标：主要指标包括：
- adjusted_ndcg@k (AnDCG): 主要的基准测试指标，衡量排序质量的归一化折扣累计增益，并针对随机表现进行了调整。
- ndcg@k: 归一化折扣累计增益。
- precision@k: 前k个预测中的命中率。
- recall@k: 在前k个预测中恢复的真实命中基因比例。
- auroc: 全排序列表的ROC曲线下面积。
- hallucination_rate: 预测基因不在筛选文库中的比例。

数据集的用途与重要链接

该基准测试主要用于评估大型语言模型（LLMs）或相关模型在理解生物学语境、预测基因功能方面的能力。

官方网站: Genentech/AssayBench
数据集: Hugging Face - Genentech/assaybench
代码仓库: GitHub - Genentech/AssayBench
相关论文: arXiv: 2605.10876

搜集汇总

数据集介绍

构建方式

在CRISPR表型筛选这一前沿领域，机器学习模型的评估长期面临缺乏标准化基准的困境。AssayBench数据集为此而生，其构建根植于BioGRID公共数据库，系统性地收集了涵盖多种细胞类型、表型及实验条件的CRISPR筛选实验数据。每个筛选实验被转化为一个包含详细描述的问题提示（question），以及对应的真实相关基因列表和连续关联分数。数据集采用基于年份的划分策略，将数据分为训练、验证、测试集，并引入一个独立的LaTest新颖数据集，用以评估模型在全新筛选任务上的泛化能力。为构建层次化的评估体系，数据集还为每条记录标注了丰富的元信息，包括细胞系、表型类别、实验条件等，使得评估不仅限于预测准确性，更能深入分析模型在不同生物学场景下的行为。

特点

AssayBench最显著的特点在于其独到的任务设计与全面的评估维度。它并非简单的基因分类任务，而是要求模型根据给定的筛选任务描述，输出一个完整的基因相关性排序列表，更贴近真实科研中'在数千基因中识别最可能相关候选者'的检索场景。其核心评价指标AnDCG（经随机基线调整的归一化折现累积增益）专门针对排序任务设计，有效避免了简单分类指标在长尾分布下的偏差。数据集收录了来自超过3000个筛选实验的丰富数据，覆盖正向/负向选择、基因敲除与激活等多样化实验方法论，并提供了详尽的实验元数据（如筛选时长、药物处理条件、统计阈值等）。这些特征共同构成了一个既能评估模型生物学知识、又能检验其应对实验细节和科研任务指令能力的多维度测试平台。

使用方法

使用AssayBench进行模型评估遵循一个标准化且可扩展的流程。用户首先通过Python包assaybench中的AssayBenchDataset类便捷加载预定义的数据划分，获得结构化的筛选样本集合。每个样本的核心是question字段，它包含了描述CRISPR筛选任务的完整上下文。模型需要基于此提示，输出一个排序的基因列表（list[str]），随后调用RankingMetrics.evaluate()方法，将该列表与标准答案中的relevance_genes和relevance_scores进行比较。评估函数会一次性计算包括AnDCG、precision、recall、FDR、AUROC及hallucination_rate在内的十数项指标，提供模型排序能力与幻觉比例的全面画像。高级用户还可通过自定义prompt_template参数灵活调整输入格式，以适配不同模型对指令的偏好，或通过提供的收集脚本批量评估LLM等各类模型，极大地提升了基准测试的灵活性和适用性。

背景与挑战

背景概述

AssayBench是由Genentech研究团队于2026年创建的大规模表型筛选基准数据集，旨在系统评估机器学习模型在CRISPR筛选预测任务中的表现。该数据集整合了来自BioGRID等公共数据库的数千个CRISPR筛选实验，涵盖不同细胞类型、表型类别和实验条件，每个筛选样本包含详尽的基因排名真值。通过构建标准化的评估框架和丰富的元数据字段，AssayBench为计算生物学领域提供了首个面向表型筛选预测的权威基准平台，显著推动了虚拟细胞模型和大型语言模型在功能基因组学中的应用研究。

当前挑战

AssayBench所解决的领域核心挑战在于如何准确预测CRISPR筛选中的功能基因排名，这要求模型能够理解复杂的生物背景（如细胞类型、实验条件、表型描述）并推断基因的功能关联性。在构建过程中，面临的关键挑战包括：跨实验平台和不同筛选方法产生的数据异质性难以统一评估；基因-表型关系的高维稀疏性导致监督信号不足；筛选实验中存在的批次效应和重复性差异增加了基准设计的复杂度。此外，如何设计公平的时间维度数据划分（基于年份）以避免数据泄露，也是确保基准评估可靠性的重要技术挑战。

常用场景

经典使用场景

AssayBench作为面向表型筛选预测任务的基准数据集，其最经典的使用场景在于评估和比较各类机器学习模型在CRISPR筛选数据上的基因排序能力。研究者通过加载Biogrid等来源的高通量筛选数据，利用数据集提供的标准化分割策略（如基于年份的数据拆分）训练模型，并依据调整后的归一化折损累计增益（AnDCG）等核心排序指标，量化模型对基因功能重要性的预测精度。该场景尤其适用于验证大型语言模型和智能体在虚拟细胞生物学任务中的推理性能，为模型在复杂生物语境下的基因优先级排序提供了统一的评估框架。

衍生相关工作

AssayBench的发布催生了一系列衍生性的研究工作，进一步推动了计算生物学的发展。其工作组通过数据集内部的多重交叉验证探索了模型性能的缩放定律，揭示了预测准确率与模型参数规模之间的关联。同时，围绕该基准开展的记忆化分析，系统考察了模型是否仅是记忆了训练集中的筛选结果，从而指引研究者设计更具泛化能力的架构。此外，基于AssayBench的表型类别性能柱状图和重复筛选迁移分析，衍生出了关于模型对不同生物表型（如增殖、活力）预测偏好性的重要见解，为开发具有生物学可解释性的预测模型提供了新方向。这些后续工作不仅验证了AssayBench作为评估平台的鲁棒性，也激发了更多面向虚拟细胞的高效算法创新。

数据集最近研究