CellPuzzles
收藏Hugging Face2025-06-05 更新2025-06-06 收录
下载链接:
https://huggingface.co/datasets/ncbi/CellPuzzles
下载链接
链接失效反馈官方服务:
资源简介:
Cell-o1数据集是一个用于训练语言模型解决单细胞推理难题的数据集。数据集包含三个部分:训练集(train)、测试集(test)和推理集(reasoning)。每个实例包含来自同一捐赠者的细胞批次,每个细胞必须从共享的候选集中分配一个唯一的类型,以确保全局一致性。数据集涉及生物学和生物信息学领域,特别是单细胞研究。
创建时间:
2025-06-03
原始信息汇总
数据集概述:CellPuzzles
基本信息
- 数据集名称: CellPuzzles
- 发布机构: ncbi
- 许可证: other
- 标签: biology, bioinformatics, single-cell
- 数据规模: 10M<n<100M
- 下载大小: 28.3 MB
- 数据集大小: 75.2 MB
数据集结构
特征
system_msg: stringuser_msg: stringassistant_msg: string
数据分块
- train
- 样本数: 6,912
- 字节数: 36,262,958
- test
- 样本数: 1,095
- 字节数: 6,325,782
- reasoning
- 样本数: 3,912
- 字节数: 32,637,432
数据集描述
CellPuzzles是一个用于训练大型语言模型(LLMs)解决单细胞推理难题的基准数据集。该数据集要求模型在单细胞RNA测序数据分析中,对来自同一供体的细胞批次进行独特的细胞类型标注,确保全局一致性。
使用方式
python from datasets import load_dataset
加载所有分块
dataset = load_dataset("ncbi/CellPuzzles")
访问各分块
train_data = dataset["train"] test_data = dataset["test"] reasoning_data = dataset["reasoning"]
相关资源
- 代码仓库: https://github.com/ncbi-nlp/cell-o1
- 论文: https://www.arxiv.org/abs/2506.02911
引用
bibtex @article{fang2025cello1, title={Cell-o1: Training LLMs to Solve Single-Cell Reasoning Puzzles with Reinforcement Learning}, author={Fang, Yin and Jin, Qiao and Xiong, Guangzhi and Jin, Bowen and Zhong, Xianrui and Ouyang, Siru and Zhang, Aidong and Han, Jiawei and Lu, Zhiyong}, journal={arXiv preprint arXiv:2506.02911}, year={2025} }
致谢
本研究由美国国立卫生研究院(NIH)国家医学图书馆(NLM)内部研究部(DIR)支持。
搜集汇总
数据集介绍

构建方式
在单细胞RNA测序数据分析领域,CellPuzzles数据集的构建模拟了专家标注细胞类型的真实场景。该数据集从同一供体的细胞批次中采集样本,每个批次内的细胞必须从共享候选集中分配唯一的细胞类型,确保全局一致性。构建过程通过精心设计的推理谜题形式,要求模型在批次级别进行上下文感知和逻辑推理,从而还原人类专家基于领域知识进行细胞簇分类的决策过程。
特点
CellPuzzles数据集的核心特点在于其强调批量细胞注释的全局一致性挑战,突破了传统独立标注的局限。数据集包含三个精心划分的子集:训练集、测试集和推理集,分别涵盖6912、1095和3912个样本,总规模约75MB。每个样本由系统消息、用户消息和助手消息组成,形成多轮对话结构,有效支持模型在生物信息学语境下的复杂推理能力评估。
使用方法
研究人员可通过Hugging Face的datasets库快速加载CellPuzzles数据集,使用load_dataset函数即可访问训练、测试和推理三个子集。该数据集专为训练大型语言模型解决单细胞推理谜题而设计,特别适用于强化学习框架下的细胞类型标注任务。用户可通过分析模型在批量细胞注释中的全局一致性表现,推动生物医学领域自动化标注系统的创新发展。
背景与挑战
背景概述
单细胞RNA测序技术的迅猛发展推动了细胞异质性研究领域的深度探索,细胞类型注释作为关键分析环节,长期以来依赖专家经验。2025年,美国国家生物技术信息中心(NCBI)与国立卫生研究院(NIH)联合发布了CellPuzzles数据集,旨在模拟生物学家基于全局上下文进行细胞类型标注的认知过程。该数据集通过设计批量细胞注释任务,要求模型在共享候选类型集中为同一供体的细胞批次分配唯一类型标识,推动了单细胞分析从独立注释向群体推理的范式转变。
当前挑战
该数据集核心挑战在于解决批量细胞注释中的全局一致性约束问题,要求模型突破传统单细胞分类的局限性,实现跨细胞的协同推理。构建过程中面临多重技术难点:需确保同一供体细胞批次的生物学合理性,维护类型候选集的互斥性与完整性,同时生成具有解释性的推理链条。数据标注需融合多维度生物特征,并保持与真实实验场景的高度一致性,这对生物医学知识表示与机器学习模型的融合提出了极高要求。
常用场景
经典使用场景
在单细胞RNA测序数据分析领域,CellPuzzles数据集被设计用于训练大型语言模型进行批量细胞类型标注任务。该数据集模拟生物学家在分析同源供体细胞时的真实工作场景,要求模型必须同时考虑整个细胞批次的全局一致性,为每个细胞分配合适的类型标签。这种设计迫使模型学习跨细胞推理能力,而非独立处理单个细胞,显著提升了细胞类型注释的准确性。
解决学术问题
CellPuzzles有效解决了单细胞分析中细胞类型注释的上下文缺失问题。传统方法往往独立处理细胞,忽略了细胞间的生物学关联,导致注释结果缺乏一致性。该数据集通过引入批量推理机制,要求模型综合考虑整个细胞群体的特征分布,从而解决了跨细胞一致性注释的学术难题,为单细胞数据分析提供了更可靠的自动化解决方案。
衍生相关工作
基于CellPuzzles数据集,研究社区已经开发出多种创新的计算方法。Cell-o1模型首次将强化学习应用于细胞类型推理任务,开创了新的研究范式。后续工作如scBERT和CellLM进一步扩展了预训练语言模型在单细胞分析中的应用范围。这些衍生研究不仅推动了计算生物学的发展,还为多模态生物医学数据分析奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



