CellVerse

github2025-05-14 更新2025-05-20 收录

下载链接：

https://github.com/zfkarl/CellVerse

下载链接

链接失效反馈

官方服务：

资源简介：

CellVerse是一个语言中心的单细胞分析基准，旨在公平且深入地评估大型语言模型在细胞生物学理解方面的能力。整个数据集包含四种类型的单细胞多组学数据（scRNA-seq、CITE-seq、ASAP-seq和ASAP-seq数据），涵盖三个子任务：细胞类型注释、药物反应预测和扰动分析。

CellVerse is a language-centered single-cell analysis benchmark designed to fairly and comprehensively evaluate the ability of large language models in understanding cellular biology. The entire dataset encompasses four types of single-cell multi-omics data (scRNA-seq, CITE-seq, ASAP-seq, and ASAP-seq), covering three subtasks: cell type annotation, drug response prediction, and perturbation analysis.

创建时间：

2025-05-08

原始信息汇总

CellVerse数据集概述

数据集简介

名称：CellVerse
目的：评估大型语言模型(LLMs)在细胞生物学理解方面的能力
特点：
- 语言中心的单细胞分析基准
- 涵盖四种单细胞多组学数据类型(scRNA-seq、CITE-seq、ASAP-seq)
- 包含三个子任务：细胞类型注释、药物反应预测和扰动分析

数据集内容

数据类型：
- 单细胞多组学数据(scRNA-seq、CITE-seq、ASAP-seq)
任务类型：
- 细胞类型注释(CTA)
- 药物反应预测(DRP)
- 扰动分析(PSA、PDA)

评估模型

开源模型：DeepSeek-R1、LLaMA-3.3-70B、DeepSeek-V3、Qwen系列等
闭源模型：GPT-4.1-mini、GPT-4o、GPT-4.1等

引用信息

latex @misc{zhang2025cellverselargelanguagemodels, title={CellVerse: Do Large Language Models Really Understand Cell Biology?}, author={Fan Zhang and Tianyu Liu and Zhihong Zhu and Hao Wu and Haixin Wang and Donghao Zhou and Yefeng Zheng and Kun Wang and Xian Wu and Pheng-Ann Heng}, year={2025}, eprint={2505.07865}, archivePrefix={arXiv}, primaryClass={q-bio.QM}, url={https://arxiv.org/abs/2505.07865}, }

联系方式

邮箱：zfkarl1998@gmail.com

搜集汇总

数据集介绍

构建方式

CellVerse数据集的构建基于对单细胞多组学数据的深度整合与分析，涵盖了scRNA-seq、CITE-seq、ASAP-seq等多种数据类型。研究团队通过系统性地设计三个子任务——细胞类型注释、药物反应预测和扰动分析，确保了数据集在生物学问题上的广泛覆盖。数据集的构建过程注重语言中心化范式，旨在统一不同组学数据的表示方式，同时提升用户友好性和可解释性。

使用方法

使用CellVerse数据集可通过两种主要方式进行推理评估：API接口调用和vLLM框架。研究人员需准备相应的模型名称和API密钥，指定输入数据路径和输出结果保存位置。数据集提供了完整的评估流程，包括答案提取和指标计算。用户还可参与公开的排行榜，通过提交模型结果与其他研究进行横向比较。数据集的使用文档详细说明了各项参数配置和结果解读方法。

背景与挑战

背景概述

CellVerse数据集由香港中文大学的研究团队于2025年推出，旨在评估大语言模型在细胞生物学领域的理解能力。该数据集聚焦于单细胞多组学数据分析，涵盖了scRNA-seq、CITE-seq、ASAP-seq等多种数据类型，并设计了细胞类型注释、药物反应预测和扰动分析三大子任务。通过将传统单细胞分析范式与以语言为中心的范式进行对比，研究团队发现后者在统一性、用户友好性和可解释性方面具有显著优势。CellVerse的建立为探索大语言模型在生物医学领域的应用潜力提供了重要基准，推动了计算生物学与人工智能的交叉研究。

当前挑战

CellVerse数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确评估大语言模型对复杂细胞生物学概念的理解深度存在困难，特别是涉及多组学数据整合和跨任务推理时；在构建过程层面，处理单细胞数据的高维稀疏特性、确保不同组学数据的标准化表示，以及设计具有生物学意义的评估指标都构成了技术难点。此外，保持数据集的时效性以跟上快速发展的单细胞技术，同时平衡不同子任务的难度分布，也是数据集维护中的持续挑战。

常用场景

经典使用场景

在单细胞生物学研究领域，CellVerse数据集为评估大语言模型（LLMs）在细胞生物学理解方面的能力提供了标准化基准。该数据集整合了四种单细胞多组学数据，覆盖细胞类型注释、药物反应预测和扰动分析三大子任务，成为研究者验证模型性能的首选工具。通过语言中心的范式，CellVerse有效统一了传统单细胞分析与新兴语言模型的评估体系。

解决学术问题

CellVerse解决了当前大语言模型在生物医学领域缺乏系统评估的学术空白。通过构建跨组学、多任务的测评框架，该数据集揭示了LLMs在细胞层级生物知识理解上的优势与局限。其创新性地将单细胞分析转化为语言任务，为生物信息学与自然语言处理的交叉研究提供了关键方法论支撑，推动了可解释性AI在生命科学中的应用。

实际应用

该数据集在生物医学研究实践中展现出重要价值。制药企业可利用其药物反应预测模块加速靶点筛选，临床研究人员能通过细胞类型注释功能辅助疾病分型诊断。尤其值得注意的是，CellVerse支持的扰动分析任务为理解基因调控网络提供了新视角，在精准医疗和个性化治疗方案制定中具有显著应用潜力。

数据集最近研究