SC-ARENA

Name: SC-ARENA
Creator: 东北大学软件学院; 深圳先进技术研究院; 中国科学院深圳先进技术研究院·高性能数据挖掘重点实验室; 加州大学欧文分校; 新南威尔士大学·生物医学工程学院
Published: 2026-02-27 00:50:28
License: 暂无描述

arXiv2026-02-27 更新2026-02-28 收录

下载链接：

https://github.com/SUAT-AIRI/SC-Arena

下载链接

链接失效反馈

官方服务：

资源简介：

SC-ARENA是由深圳先进技术研究院联合多机构开发的单细胞生物学自然语言评测基准，旨在通过虚拟细胞抽象框架统一评估大模型在细胞属性推理和动态行为模拟中的表现。数据集包含五种核心任务（细胞类型标注、描述生成、细胞生成、扰动预测和科学问答），整合了来自CELLxGENE、PubMed文献及细胞本体论等多源知识，采用开放问答形式以反映真实场景需求。其创新性知识增强评估机制融合外部生物数据库和本体论，为模型提供可解释且生物学可信的评判标准，推动领域专用基础模型的开发。

提供机构：

东北大学软件学院; 深圳先进技术研究院; 中国科学院深圳先进技术研究院·高性能数据挖掘重点实验室; 加州大学欧文分校; 新南威尔士大学·生物医学工程学院

创建时间：

2026-02-27

原始信息汇总

SC-Arena 数据集概述

数据集基本信息

数据集名称：SC-Arena
数据集地址：https://github.com/SUAT-AIRI/SC-Arena
项目性质：面向任务的单细胞相关基准测试的推理与评估框架

核心功能

加载数据集并将每个样本转换为特定于任务的提示。
通过选定的提供者（例如 openai、vllm、vllm_api）运行批量推理。
使用任务评估器评估模型输出。
将预测输出和最终分数保存到 JSON 文件。

支持的任务

任务	评估器	预期答案模式
`celltype`	`CellTypeEvaluator`	`[Predicted_Cell_Type: ...]`
`captioning`	`CaptioningEvaluator`	`[Captioning: ...]`
`generation`	`GenerationEvaluator`	`[Cell_Sentence: ...]`
`perturbation`	`PerturbationEvaluator`	`[Up: ...] [Down: ...] [Cell_Sentence: ...]`
`scienceqa`	`ScienceqaEvaluator`	`[Answer: ...]`

数据集与文件结构

示例数据路径：data/
提示模板路径：prompts/（包含 .jsonl 文件）
配置模板路径：configs/
输出文件：
- 模型预测文件：由 --out 参数指定（JSONL 格式）
- 聚合分数摘要：由 --score 参数指定（JSON 格式）

使用方式

安装

bash git clone https://github.com/SUAT-AIRI/SC-ARENA.git cd SC-ARENA python -m venv .venv

Windows PowerShell:

.venvScriptsActivate.ps1

Linux/macOS:

source .venv/bin/activate

pip install -r requirements.txt

运行推理

主命令示例： bash python -m scripts.run_inference --config configs/openai_exmaple.yaml --data data/cell_sentences_fixed.jsonl --task celltype --out outputs/celltype/openai_celltype.jsonl --score scores/celltype/openai_celltype.json --baseurl https://api.openai.com/v1 --apikey YOUR_API_KEY --modelname gpt-4o-mini --evaluated_model openai_celltype

扩展框架

添加提供者：在 providers/ 中创建继承 InferenceEngine 的类，并使用 @register("your_provider") 注册。
添加评估器：在 evaluators/ 中创建继承 EvaluateEngine 的类，并使用 @register_evaluator("your_task") 注册。

许可证

MIT 许可证

搜集汇总

数据集介绍

构建方式

在单细胞生物学领域，随着大语言模型的应用日益广泛，现有评估基准在任务覆盖、评估格式和度量标准方面存在局限。SC-ARENA数据集的构建采用了虚拟细胞抽象范式，将评估目标统一为细胞的内在属性与基因级交互。具体而言，该数据集从公开高质量单细胞资源中提取数据，包括CELLxGENE、Norman和Adamson等大规模扰动研究，以及PubMed文献。通过将基因表达谱转换为自然语言“细胞句子”，并设计五种代表性任务——细胞类型注释、细胞描述生成、细胞生成、扰动预测和科学问答，数据集形成了一个闭环评估框架，确保了数据的一致性和可比性。

特点

SC-ARENA数据集的核心特点在于其知识增强的评估框架，突破了传统自然语言处理度量的局限性。该框架整合了外部本体、标记数据库和科学文献，如细胞本体、CellMarker、NCBI、UniProt和基因本体，以支持基于生物学真实性和可解释性的判断。数据集通过虚拟细胞抽象，将异构任务统一到一个框架中，不仅评估模型的静态身份识别能力，还深入探究其动态行为和因果推理机制。这种设计使得评估结果更具区分度，能够准确反映模型在生物学机制理解上的深度与广度。

使用方法

SC-ARENA数据集的使用方法遵循其模块化评估框架。用户首先将参与模型视为虚拟细胞，接收标准化的自然语言查询或细胞句子表示。模型需在五种任务上生成开放式的自然语言响应，这些响应随后被转换为统一的结构化格式。评估阶段采用知识增强的LLM-as-a-judge方法，结合外部知识资源对模型输出进行评分，评分范围从0到5，并线性缩放到0-100。该方法不仅提供数值分数，还生成基于知识的解释性理由，使得评估过程透明且可审计，便于用户进行系统错误分析和模型迭代优化。

背景与挑战

背景概述

随着大语言模型在生物医学研究中的广泛应用，其在单细胞生物学领域的评估体系亟待完善。SC-ARENA数据集由东北大学、深圳先进技术研究院、加州大学尔湾分校及新南威尔士大学等机构的跨学科团队于2026年创建，旨在构建面向单细胞基础模型的自然语言评估框架。该数据集以虚拟细胞为抽象核心，将细胞内在属性与基因层面相互作用统一为评估目标，通过细胞类型注释、描述生成、扰动预测等五项任务系统检验模型在细胞生物学中的核心推理能力。其创新性在于突破了传统分类评估的局限，为单细胞生物学与人工智能的交叉研究提供了标准化、可解释的评估基准，推动了生物学对齐的基础模型发展。

当前挑战

SC-ARENA数据集致力于解决单细胞生物学中语言模型评估的深层挑战。在领域问题层面，传统评估方法依赖选择题格式和字符串匹配指标，无法捕捉模型对细胞身份、动态行为和因果机制的真实理解，导致评估结果与生物真实性脱节。在构建过程中，团队面临三大核心挑战：一是如何设计开放式的自然语言任务以模拟真实科研场景，超越碎片化的分类评估；二是如何整合细胞本体、标记基因数据库和科学文献等外部知识，建立具有生物可解释性的评估体系；三是如何克服传统自然语言处理指标在生物语义上的脆弱性，开发能够区分语言流畅性与生物学忠实度的判别性评估框架。

常用场景

经典使用场景

在单细胞生物学领域，随着大语言模型的应用日益广泛，如何系统评估模型对复杂细胞系统的理解能力成为关键挑战。SC-ARENA通过构建虚拟细胞抽象，将评估目标统一为细胞属性与方法的综合表征，设计了细胞类型注释、细胞描述生成、细胞生成、扰动预测和科学问答五大自然语言任务。这些任务以开放式问答形式呈现，模拟真实科研场景中从基因表达数据到生物学语义的跨模态推理过程，为评估模型在单细胞层面的静态身份识别与动态行为预测能力提供了标准化测试平台。

实际应用

在实际科研中，SC-ARENA可作为单细胞基础模型的开发与优化指南。其任务设计直接对应生物信息学中的关键应用场景：细胞类型注释助力新数据集的自动化标注，细胞生成支持合成数据构建以扩充训练样本，扰动预测辅助药物靶点筛选与机制研究，科学问答则能驱动文献挖掘与假设生成。该框架已被用于评估包括Qwen、GPT-4o、DeepSeek-R1在内的通用模型及scGPT、Cell-o1等专业模型，揭示了当前模型在机制推理方面的普遍短板，指引了生物学对齐模型的发展方向。

衍生相关工作

SC-ARENA的提出推动了单细胞语言模型评估范式的演进，其虚拟细胞抽象与知识增强评估理念已启发多项后续研究。相关工作如CELLVERSE专注于多组学细胞句子的统一表示，但仍沿用选择题形式；SOAR则聚焦于细胞类型注释的代理评估。这些工作与SC-ARENA共同构成了从静态编码到动态推理的评估光谱。此外，其采用的LLM-as-a-judge结合外部知识的评估策略，也为生物医学领域其他专业任务的自动化评估提供了可借鉴的框架，促进了评估方法从表面匹配向语义忠实度的转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集