BaisBench (Biological AI Scientist Benchmark)
收藏arXiv2025-05-13 更新2025-05-15 收录
下载链接:
https://github.com/EperLuo/BaisBench
下载链接
链接失效反馈官方服务:
资源简介:
BaisBench是一个专门用于评估人工智能科学家利用真实生物组学数据进行发现任务的能力的基准测试。该基准测试包含两个任务:细胞类型注释任务(BAIS-CTA)和科学发现任务(BAIS-SD)。BAIS-CTA任务包括31个单细胞数据集,用于评估人工智能科学家对细胞类型的注释能力。BAIS-SD任务由198个多项选择题组成,这些问题来源于41篇已发表的单一细胞研究的生物洞察。该数据集旨在通过分析复杂生物数据得出可解释、洞察丰富的结论。
BaisBench is a benchmark specifically designed to evaluate the capabilities of AI scientists in performing discovery tasks using real biological omics data. This benchmark encompasses two tasks: the Cell Type Annotation task (BAIS-CTA) and the Scientific Discovery task (BAIS-SD). The BAIS-CTA task comprises 31 single-cell datasets to assess AI scientists' performance in cell type annotation. The BAIS-SD task includes 198 multiple-choice questions sourced from the biological insights reported in 41 published single-cell studies. This benchmark is intended to derive interpretable and insight-rich conclusions through the analysis of complex biological data.
提供机构:
清华大学
创建时间:
2025-05-13
原始信息汇总
AI Scientist Benchmark (AISBench) 数据集概述
数据集简介
- 目的:评估AI科学家在生物学领域从真实生物数据中发现规律的能力。
- 基础数据:基于单细胞转录组数据(单细胞RNA测序数据)。
- 组成部分:
- 细胞类型标注:包含31个专家标注的单细胞数据集,采用基于层次化细胞类型树的新评估指标。
- 科学发现:包含198道多选题,源自41项近期单细胞研究的生物学见解。
数据集内容
- Task 1:细胞类型标注任务
- 脚本:
Task1.ipynb - 示例基线:CellTypist(人工标注基线)
- 脚本:
- Task 2:科学发现任务
- 脚本:
Task2.ipynb - 包含:数据集、研究背景信息、多选题(含参考答案)
- 用途:评估AI科学家在真实生物研究场景中的表现
- 脚本:
数据获取
- 所有数据集可通过Huggingface获取。
环境依赖
- scanpy
- openai
- numpy
- pandas
- huggingface_hub
- uhaf
参考文献
- 详细基准信息请参阅论文。
搜集汇总
数据集介绍

构建方式
BaisBench数据集的构建基于单细胞转录组学数据,旨在评估AI科学家在真实生物学研究场景中的表现。数据集包含两项任务:细胞类型注释任务(BAIS-CTA)和科学发现任务(BAIS-SD)。BAIS-CTA任务由31个专家标注的单细胞RNA测序数据集组成,采用统一层次注释框架(uHAF)进行标准化分类。BAIS-SD任务则通过提取41项近期单细胞研究的关键发现,生成了198道多选题,每道题均与原始研究中的数据集配对。数据集的构建过程结合了生物信息学专家的手动标注和大型语言模型(如GPT-4o)的自动化总结与问题生成技术。
使用方法
BaisBench数据集的使用方法分为两个主要步骤。对于BAIS-CTA任务,用户需对提供的单细胞数据集进行细胞类型注释,并通过uHAF框架的层次化评分标准评估性能。对于BAIS-SD任务,用户需分析给定的单细胞数据,并结合生物学背景知识回答多选题。数据集支持多种AI科学家框架(如AutoBA、scChat和Aviary)的评估,用户可通过本地或云端环境运行基准测试。所有数据集均以标准h5ad格式提供,确保了与主流单细胞分析工具的兼容性。
背景与挑战
背景概述
BaisBench(Biological AI Scientist Benchmark)是由清华大学等机构的研究团队于2025年提出的一个专注于评估AI科学家在生物医学研究中数据驱动发现能力的基准测试。该数据集针对单细胞转录组学这一现代生物学核心领域,包含两大任务:基于31个专家标注单细胞数据集的细胞类型注释(BAIS-CTA),以及源自41项前沿研究的198道多选题组成的科学发现任务(BAIS-SD)。其创新性体现在首次将真实生物数据解析与外部知识推理相结合,通过统一层次化注释框架(uHAF)和文献衍生问题构建,为AI系统的科研能力评估提供了标准化度量体系。该基准的建立标志着生物医学研究从传统专家驱动模式向智能辅助范式的转型尝试,对推动自动化科学发现具有重要意义。
当前挑战
BaisBench面临的核心挑战体现在两个维度:在科学问题层面,单细胞数据的超高维度(数万个基因表达量)与生物学噪声(技术变异/批次效应)要求模型具备强大的特征选择与降维能力,而细胞类型注释中广泛存在的层次化分类(如骨髓细胞→树突细胞亚型)则对模型的语义理解与知识迁移提出挑战;在构建技术层面,数据集的创建需平衡生物学广度(覆盖31种器官)与标注深度(uHAF框架的5级分类体系),同时科学发现任务的198道问题需严格对应原始文献的数据驱动结论,这要求构建团队同时具备生物信息学专业知识和严谨的文献挖掘能力。当前AI科学家在基准测试中表现(平均准确率0.25)显著低于人类专家(0.76),揭示了现有模型在生物上下文理解与多步推理方面的本质缺陷。
常用场景
经典使用场景
在单细胞转录组学研究中,BaisBench数据集被广泛用于评估AI科学家在细胞类型注释和科学发现任务中的表现。通过31个专家标注的单细胞数据集和198个基于生物学发现的多选题,该数据集为研究者提供了一个标准化的评估平台,帮助验证模型在真实生物研究场景中的分析能力。
解决学术问题
BaisBench解决了当前生物信息学研究中AI模型评估的不足,特别是在数据驱动的科学发现任务中缺乏标准化基准的问题。通过引入层次化细胞类型注释框架(uHAF)和多选题任务,该数据集填补了现有评估方法在生物学推理和数据解释能力上的空白,为AI模型的性能提升提供了明确方向。
实际应用
在实际应用中,BaisBench被用于优化单细胞数据分析流程,特别是在临床研究和药物开发中。例如,通过评估AI模型在细胞类型注释中的准确性,研究者能够更可靠地识别疾病相关细胞亚群,从而加速精准医疗的发展。此外,该数据集还被用于培训生物信息学研究人员,提升他们在复杂数据分析中的技能。
数据集最近研究
最新研究方向
随着人工智能在生物医学领域的深入应用,BaisBench(Biological AI Scientist Benchmark)作为评估AI科学家在生物组学数据驱动研究中的基准测试,正成为该领域的前沿研究方向。该数据集聚焦于单细胞转录组学分析,通过细胞类型注释任务(BAIS-CTA)和科学发现任务(BAIS-SD)两大核心模块,系统评估AI模型在真实生物研究场景中的数据分析与科学推理能力。当前研究热点集中于探索多智能体系统(MAS)与大型语言模型(LLM)在复杂生物数据解释中的协同机制,尤其是如何整合外部知识库以提升模型对细胞异质性、疾病机制等生物学现象的深层解读。近期实验表明,尽管现有AI科学家在自动化流程构建上表现优异,但其在数据驱动的科学发现任务中仍显著落后于人类专家,这凸显了模型在生物上下文推理和工具适应性方面的关键瓶颈。BaisBench的提出为量化AI在生物医学研究中的实际效能提供了标准化框架,有望推动下一代可解释性AI科学家的开发,加速生命科学领域的自动化发现进程。
相关研究论文
- 1Benchmarking AI scientists in omics data-driven biological research清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成



