单细胞组学分析
收藏arXiv2025-08-16 更新2025-11-26 收录
下载链接:
https://zenodo.org/records/17291196
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由广州国家实验室、广州医科大学等单位联合创建,旨在评估基于大型语言模型的AI代理在单细胞组学分析中的能力。数据集包含50个单细胞组学分析任务,涵盖了多种任务类型、物种、组学数据、编程语言和测序技术,使用公共数据集和核心分析工具进行评估。该数据集为研究者提供了一个统一的平台,以客观、定量地比较不同代理框架和大型语言模型的性能,并为单细胞组学分析从经验驱动范式向智能代理生态系统的转变提供了坚实的经验基础。
This dataset was jointly created by Guangzhou National Laboratory, Guangzhou Medical University and other institutions, aiming to evaluate the capabilities of large language model (LLM)-based AI Agents in single-cell omics analysis. The dataset includes 50 single-cell omics analysis tasks, covering diverse task types, species, omics datasets, programming languages and sequencing technologies, and uses public datasets and core analytical tools for evaluation. This dataset provides researchers with a unified platform to objectively and quantitatively compare the performance of different agent frameworks and large language models, and lays a solid empirical foundation for the transition of single-cell omics analysis from an experience-driven paradigm to an intelligent agent ecosystem.
提供机构:
广州国家实验室
创建时间:
2025-08-16
搜集汇总
数据集介绍

构建方式
为系统评估基于大语言模型的人工智能体在单细胞组学分析中的能力,本研究构建了一个全面的基准评测体系。该体系包含三大核心组件:一是统一的评测平台,兼容ReAct、LangGraph、AutoGen等多种智能体框架,并支持GPT-4o、DeepSeek-R1、Grok-3-beta等八种前沿大语言模型的无缝集成;二是多维度的评价指标体系,涵盖认知程序合成、协作与执行效率、生物信息学知识整合、任务完成质量四个方面,共计18项精细化的定量指标;三是精心设计的50项代表性单细胞组学分析任务,这些任务覆盖了批次校正、细胞注释、空间解卷积、多组学整合等多种类型,横跨多个物种、组学模态与测序技术,每项任务均包含核心分析工具、真实数据集以及标准答案输出。
特点
该基准数据集的核心特色在于其系统性、全面性与诊断性。首先,它首次在单细胞组学领域提供了标准化的智能体性能评估平台,克服了以往基准任务覆盖窄、指标单一、兼容性差的局限性。其次,其评价体系不仅关注最终结果的成功率,更深入剖析智能体的核心认知过程,包括规划质量、代码生成与执行的一致性、知识检索的准确性等,实现了对智能体能力的抽丝剥茧式分析。尤为突出的是,该数据集内嵌了深入的归因分析模块,通过鲁棒性测试、功能模块消融实验以及失败任务诊断,揭示了高质量代码生成是任务成功的关键,而自反思机制与检索增强生成是对整体性能贡献最大的功能模块,为智能体系统的优化提供了实证基础。
使用方法
使用该数据集时,研究人员可依据其提供的标准化接口,首先将待评估的智能体框架(如单智能体或多智能体系统)与选定的大语言模型配置于评测平台。随后,针对50项分析任务,输入统一模板的提示词,并确保任务所需原始数据存放于指定路径。智能体将自主执行规划、代码生成、执行与反思的迭代循环,整个过程被完整记录。执行完毕后,平台自动调用18项评价指标对智能体在四个维度的表现进行量化评分,并输出任务完成状态、代码质量、协作效率以及总得分。此外,研究者可利用平台提供的提示词变体与功能消融组件,开展鲁棒性与归因分析,从而深入理解智能体的行为机制与瓶颈所在,为构建更可靠、高效的生物信息学智能体提供指引。
背景与挑战
背景概述
随着单细胞组学技术的革命性突破,包括单细胞转录组学、空间转录组学及整合多组学分析在内的技术体系,正以前所未有的精度重塑生物学研究格局,开启了‘细胞级分辨率’的新纪元。由人类细胞图谱等国际联盟推动,公共数据库目前已容纳超过五千万个单细胞的多模态数据。然而,数据复杂性的指数级增长(年增长率超60%)与传统分析范式的线性演进之间形成了尖锐矛盾,后者严重依赖人工预选算法组合与参数调优,导致结果缺乏客观性与可重复性,且决策路径不透明,知识融合滞后。为此,由广州国家实验室等机构的研究团队于2025年提出了首个面向单细胞组学分析的大语言模型(LLM)智能体综合基准评估系统,旨在系统性地评估智能体在该领域的核心能力,填补了该领域全面基准评估的空白,为推动单细胞组学分析从经验驱动范式向智能生态系统转型奠定了关键实证基础。
当前挑战
该领域面临的首要挑战在于,海量单细胞组学数据呈现超高维度、多模态关联及动态特征等复杂性,使得传统的经验驱动型分析范式在算法选择、参数配置及知识融合方面遭遇瓶颈,难以实现‘数据-算法-知识’的协同优化。在构建基准评估系统的过程中,研究团队遇到了多重技术壁垒:首先,任务覆盖需兼顾广度与深度,既要涵盖批次校正、细胞注释、空间解卷积等五十项高频流程,又要确保对新兴技术(如超高分辨率空间转录组学)的延展性;其次,现有评估指标多聚焦于单一维度(如任务成功率),缺乏量化智能体在认知程序合成、协作效率、知识整合等核心能力的多维度量框架;此外,构建兼容多种智能体框架与大语言模型的统一评估平台,并解决长上下文处理、高质量代码生成及上下文感知知识检索等关键瓶颈,亦是极具挑战的工程难题。
常用场景
经典使用场景
在单细胞组学分析的璀璨星图中,该数据集被广泛应用于对基于大语言模型的智能体进行系统性基准测试。研究者借助它评估不同智能体框架(如ReAct、LangGraph、AutoGen)在自动化执行单细胞转录组学、空间转录组学及多组学整合等经典分析任务时的表现。这一场景的核心在于衡量智能体从自然语言指令出发,自主规划分析流程、生成可执行代码并输出符合生物学意义的结论的能力,从而为计算生物学领域智能体的性能比较提供标准化标尺。
实际应用
在实际应用中,该数据集催化了从经验驱动到智能体生态的分析范式跃迁。它赋能生物医学研究者以自然语言与智能体交互,自动完成批次校正、细胞注释、动态轨迹推断、空间解卷积等复杂分析流程,大幅降低了对特定工具脚本编程的依赖。例如,在药物发现领域,研究者可借助经该基准测试验证的智能体快速筛选扰动响应基因;在精准医学中,它支持跨样本、跨模态数据的自动化整合与解读,有效缩短从原始数据到生物学洞察的转化周期,展现出在细胞图谱构建与疾病机制探索中的广阔实践前景。
衍生相关工作
该数据集衍生了一系列具有深远影响的经典工作,推动了智能体在计算生物学中的设计演化。基于其归因分析结果,后续研究聚焦于强化代码生成质量与自我反思机制,催生了融合链式思维推理与检索增强生成的新型智能体架构。此外,该基准测试框架激发了关于多智能体协作效率与鲁棒性的深入探讨,例如通过角色分工减轻认知负载的策略,以及针对长工作流上下文丢失问题的宽容性优化方案。这些工作不仅提升了自动化分析流程的可靠性,还构建了从评估到优化的闭环,为科学AI助手的持续迭代提供了方法论范本。
以上内容由遇见数据集搜集并总结生成



