ASSAYBENCH

Name: ASSAYBENCH
Creator: 基因泰克
Published: 2026-05-12 01:27:16
License: 暂无描述

arXiv2026-05-12 更新2026-05-13 收录

下载链接：

https://github.com/Genentech/AssayBench

下载链接

链接失效反馈

官方服务：

资源简介：

ASSAYBENCH是由基因泰克研究团队构建的大规模表型筛选预测基准数据集，旨在评估计算模型在虚拟细胞模拟中的性能。该数据集整合了1920个公开可用的CRISPR筛选实验，涵盖细胞适应性、化学响应、宿主-病原体互作等五大表型类别，每个实验平均评估约13,826个基因，数据来源于BioGRID ORCS数据库及最新文献。其构建过程通过数据质量过滤、重复实验合并、表型方向标注等流程，将每个筛选实验转化为基于文本描述的条件基因排序任务。该数据集主要应用于计算生物学和药物发现领域，致力于解决表型筛选的硅基预测问题，为构建虚拟细胞模型和优化大语言模型在生物扰动预测中的表现提供标准化测试平台。

ASSAYBENCH is a large-scale phenotypic screening prediction benchmark dataset developed by the Genentech research team, designed to evaluate the performance of computational models in virtual cell simulations. This dataset integrates 1,920 publicly available CRISPR screening experiments, covering five major phenotypic categories including cell fitness, chemical response, host-pathogen interaction, and others. Each experiment evaluates an average of approximately 13,826 genes, with data sourced from the BioGRID ORCS database and recent peer-reviewed literature. Its construction pipeline includes data quality filtering, duplicate experiment consolidation, phenotypic direction annotation and other standardized procedures, converting each screening experiment into a conditional gene ranking task based on textual descriptions. This dataset is primarily applied in computational biology and drug discovery, aiming to address the in silico prediction challenges of phenotypic screening, and provides a standardized testing platform for constructing virtual cell models and optimizing the performance of large language models (LLMs) in biological perturbation prediction.

提供机构：

基因泰克

创建时间：

2026-05-12

原始信息汇总

AssayBench 数据集概述

AssayBench 是一个用于评估机器学习模型在表型筛选预测任务上性能的基准测试数据集。

数据集核心信息

来源：Genentech 研究团队
目的：评估机器学习模型对 CRISPR 筛选结果的预测能力
数据集加载：通过 AssayBenchDataset 从 HuggingFace（Genentech/assaybench）加载
评估指标：使用 RankingMetrics 计算排名指标

数据集结构

数据字段

每个筛选样本（screen）包含以下字段：

字段	类型	描述
`question`	str	描述筛选任务和排名任务的提示
`relevance_genes`	list[str]	筛选库中的所有基因
`relevance_scores`	list[float]	每个基因的阈值化百分位分数（越高越相关）
`hit`	list[bool]	每个基因是否为筛选命中基因
`dataset_name`	str	筛选标识符
`screen_ids`	list[int]	BioGRID 筛选ID（多个ID表示合并的重复筛选）
`phenotype`	str	完整表型描述
`cleaned_phenotype`	str	粗粒度表型类别（如"适应度/增殖/活力"）
`condition_clause`	str	实验条件（如药物处理、剂量）
`cell_type`	str	筛选使用的细胞类型
`cell_line`	str	细胞系名称
`screen_type`	str	选择类型（如"正向选择"、"负向选择"）
`library_methodology`	str	筛选方法（如"敲除"、"激活"）
`screen_rationale`	str	筛选的科学原理
`screen_category`	str	筛选方向性（如"单向"、"双向"）
`num_genes`	int	筛选库中的基因数量
`author`	str	发表作者和年份（如"Wang T (2014)"）
`source_id`	str	源文献的PubMed ID
`split`	str	数据划分：`train`、`validation`、`test` 或 `novel_dataset`
`answer`	str	按相关性分数排名前10的基因（逗号分隔，供参考）

数据划分

数据集支持基于年份的划分方式，通过 split_type="year" 参数指定，并提供 train、validation、test 和 novel_dataset 四个子集。

评估指标

RankingMetrics.evaluate() 返回的指标包括：

指标	描述
`ndcg@k`	归一化折损累计增益（使用分级相关性分数衡量排名质量）
`adjusted_ndcg@k`	针对随机性能调整后的nDCG——主要基准指标（AnDCG）
`precision@k`	前k个预测中命中基因的比例
`normalized_precision@k`	按真阳性数归一化的精确率（NPrecision）
`fdr@k`	前k个预测中非命中基因的比例（错误发现率）
`normalized_fdr@k`	按真阴性数归一化的FDR
`recall@k`	前k个预测中恢复的真命中基因比例
`auroc`	全排名列表上的ROC曲线下面积
`mrr`	平均倒数排名（第一个命中的排名的倒数）
`hallucination_rate`	预测基因不在筛选库中的比例
`hit_scaled_ndcg@k`	使用二元命中标签而非分级相关性计算的nDCG
`hit_scaled_adjusted_ndcg@k`	使用二元命中标签的调整后nDCG

默认计算所有指标组，可通过 metric_groups 参数限制为子集。

自定义提示模板

可在创建 AssayBenchDataset 时通过 prompt_template 字符串参数自定义提示模板，支持的占位符包括：

{cell_line} - 细胞系名称
{cell_type} - 细胞类型描述
{library_type} - 文库类型
{library_methodology} - 方法学
{experimental_setup} - 实验设计
{duration} - 筛选持续时间
{condition_clause} - 条件详情
{phenotype} - 表型描述
{significance_criteria} - 命中调用的统计阈值
{ranking_rationale} - 基因排名依据
{notes} - 附加筛选注释

安装方式

bash pip install git+ssh://git@github.com/Genentech/AssayBench.git

或克隆仓库后以可编辑模式安装：

bash git clone git@github.com:Genentech/AssayBench.git && cd AssayBench pip install -e .

搜集汇总

数据集介绍

构建方式

ASSAYBENCH的构建起始于BioGRID ORCS数据库中收录的1,952项人类CRISPR筛选实验，并辅以近期文献中新增的19项筛选数据。在数据清洗阶段，研究团队剔除了所有测试基因均被标记为显著或缺乏明确显著性判定标准的筛选条目，并将基因符号统一至HGNC命名体系。针对元数据字段完全一致的技术重复实验，通过合并操作生成单一的基准条目。随后，借助大语言模型辅助的注释流程，为每项筛选提取详细的表型描述与扰动效应方向，并将表型归入五大类别。对于采用双向显著性标准的筛选，进一步拆分为至多三个分别对应不同方向的基准条目，最终将1,568项经精心筛选的原始条目扩展至1,920个标准化的基准测试样本。每个基因均依据其在筛选中的多重统计指标（如p值与log-fold change）被赋予一个连续的关联性评分，非hit基因的评分被设为零。

特点

该数据集的核心特点在于其以表型终点为导向的基准测试范式，这与传统关注分子层面转录组响应的基准存在本质区别。ASSAYBENCH将每项CRISPR筛选抽象为一个基因排序问题，模型需依据一段自由文本格式的筛选描述与排序准则，输出一份由100个候选基因构成的排序列表。数据集跨越了适应性/增殖/活力、化学/环境响应、宿主-病原体/感染响应、分子输出/报告基因/通路活性以及转运/定位/结构表型五大表型类别，基因评估数量平均每项筛选高达13,826个。为了模拟现实世界中的分布偏移，采用了基于发表年份的时间序列划分策略。在评价指标方面，引入了修正的归一化折损累计增益（AnDCG@100），该指标通过扣除随机基线实现跨异质性筛选的性能可比。

使用方法

ASSAYBENCH的使用方式直观且灵活：研究人员可直接从Hugging Face数据集仓库或GitHub仓库获取包含1,920项筛选条目的完整数据。每项筛选均附带一份精心设计的文本提示词，其中整合了实验背景、显著性准则与排序目标。模型的输出要求为一份包含100个HGNC基因符号的排序列表。评估过程通过三个互补指标完成：AnDCG@100作为主要排序指标，Precision@100衡量真实hit基因的富集程度，而dFDR@100则评估模型将负相关基因置于前列的错误率。由于数据集采用时间划分，训练集包含2021年之前的1,349项筛选，验证集为2021年的218项，测试集则由2021年后的334项构成，另有一个由19项极新近发表筛选组成的LaTest子集，这为评估模型的时间泛化能力与潜在的记忆化效应提供了理想框架。

背景与挑战

背景概述

在机器学习与大规模生物数据采集迅猛发展的浪潮中，构建虚拟细胞——一种能够预测细胞在多样化扰动与背景下行为反应的计算模型——再次成为备受瞩目的科学愿景。其中最具变革潜力的应用当属计算机模拟表型筛选，即通过模型预测未知生物学情境中细胞扰动效应，从而加速早期药物发现。然而，这一研究领域长期缺乏标准化的评估基准。现有的扰动建模基准大多聚焦于分子层面的读数，如单细胞转录组响应，而真实药物研发流程中关键的决策节点恰是功能表型端点。为填补这一空白，来自Genentech的研究人员于2026年发布了ASSAYBENCH。该基准整合了1,920项公开CRISPR筛选实验，覆盖五大细胞表型类别，将每次筛选形式化为条件于自由文本描述的基因排序任务，为评估大语言模型及智能体系统在虚拟细胞替代建模中的性能提供了首个大规模且贴近实际的测试平台。

当前挑战

ASSAYBENCH所面临的挑战主要体现在两个层面。就领域问题而言，表型筛选预测的核心难点在于：模型需从异质性极强的文本输入中理解实验语境，并将其与多样化的表型读数据点建立精确映射，最终实现对扰动基因的功能性优先排序，这一过程远超出单纯分子状态重构的范畴。构建过程中，挑战同样严峻：原始数据来源BioGRID ORCS中的表型注释与扰动效应方向信息常不完整或模糊，需借助LLM进行辅助提取与校对；不同筛选实验的显著性标准与得分定义迥异，必须通过统一的相关性评分与排序机制加以调和；此外，为保证评估的真实性与泛化能力，采用基于时间分裂的策略，但这也引入了现实中的分布偏移，致使现有一流模型的表现仍远低于经验估计的性能上限，零样本通用LLM虽已领先，却依然无法突破这一瓶颈。

常用场景

经典使用场景

ASSAYBENCH最经典的使用场景是作为表型筛选预测的标准化基准测试平台。在药物发现与细胞生物学领域，研究人员常需通过CRISPR筛选识别调控特定表型（如细胞增殖、药物耐药性、感染反应等）的关键基因。该数据集将1,920个公开的CRISPR筛选实验整合为统一的基因排序任务，每个实验伴随自然语言描述的上下文信息。其核心设计在于将表型筛选预测转化为基于文本条件的有序基因列表生成问题，从而为评估大规模语言模型在虚拟细胞模拟中的表型预测能力提供了首个系统化的评测框架。

衍生相关工作

ASSAYBENCH的构建催生了多项开创性后续工作。在其评测框架下，研究者系统比较了前沿大语言模型（如Gemini 3 Pro、GPT-5.4）与生物学专用模型（如C2S-Scale、Biomni）的性能差异，并探索了监督微调、强化学习及提示优化等增强策略。特别地，基于演化算法的集成方法被证明能进一步提升预测表现，而模型规模缩放趋势的分析揭示了参数量与预测能力间的正相关关系。此外，该数据集还引发了对大语言模型在生物文献记忆与泛化能力之间界限的深入探讨，为设计更具鲁棒性的虚拟细胞代理系统奠定了实验基础。

数据集最近研究