bond-czi-benchmark
收藏Hugging Face2025-09-03 更新2025-09-04 收录
下载链接:
https://huggingface.co/datasets/pankajrajdeo/bond-czi-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
BOND Benchmark数据集是一个全面的生物学术语映射评估数据集,包含来自100个不同CellxGene数据集的作者级别生物学术语与标准化本体标识符之间的映射。这些映射覆盖了7个关键生物注释字段,包括细胞类型、实验测定方法、疾病状况、自报种族信息、发育阶段、生物性别和 组织类型。
创建时间:
2025-08-29
原始信息汇总
BOND-CZI Benchmark Dataset 概述
数据集简介
BOND-CZI Benchmark是一个用于评估生物医学本体归一化模型的大规模基准数据集,源自CELLxGENE Census单细胞转录组学数据。该数据集旨在解决跨不同研究和数据集统一多样化生物术语的关键挑战。
核心统计信息
- 总数据集数:1,574个(来自CELLxGENE Census)
- 处理数据集数:1,561个(成功进行列映射)
- 最终数据集数:1,027个(提取训练示例)
- 总训练示例数:64,777个作者术语到本体ID的映射
- 元数据文件数:1,573个(已下载和处理)
- 主要生物种类:智人(57,044个示例)和小鼠(7,717个示例)
- 字段类型:7个标准生物类别(测定、细胞类型、发育阶段、疾病、性别、自我报告种族、组织)
- 独特组织类型:247种
数据集结构
文件组成
bond_czi_benchmark_data_hydrated_train.jsonl(58,390个示例)- 训练集bond_czi_benchmark_data_hydrated_dev.jsonl(3,224个示例)- 开发集bond_czi_benchmark_data_hydrated_test.jsonl(3,163个示例)- 测试集
数据格式
每个JSONL示例包含数据集ID、标题、集合名称、字段类型、生物种类、组织、作者术语、本体ID、支持计数、置信度分数、拆分信息以及完整的本体映射元数据。
任务描述
基准测试评估模型在以下方面的能力:
- 将作者术语映射到本体ID
- 处理多样化的术语变化
- 保持生物学准确性
- 跨多个领域扩展
支持的本体
- 细胞本体(CL)
- UBERON解剖本体
- 实验因子本体(EFO)
- 人类表型本体(HPO)
- 基因本体(GO)
数据分布
字段分布
- 细胞类型:53,140个示例(82.0%)
- 组织:6,068个示例(9.4%)
- 发育阶段:2,573个示例(4.0%)
- 测定:1,789个示例(2.8%)
- 疾病:802个示例(1.2%)
- 自我报告种族:306个示例(0.5%)
- 性别:99个示例(0.2%)
拆分分布
- 训练集:58,390个示例(90.2%)
- 开发集:3,224个示例(5.0%)
- 测试集:3,163个示例(4.9%)
质量评估
人类专家评审显示:
- LLM性能:98.9%准确率(277/280正确预测)
- 评审者间一致性:99.1%(κ=0.663 - 实质性一致)
- 人类-LLM一致性:98.9%
使用方式
数据集可通过标准JSONL文件加载,推荐使用精确匹配准确率、Top-k准确率、字段特异性性能和生物种类特异性性能等评估指标。
技术细节
包含支持计数、置信度分数、过时术语解析和数据类型一致性等质量保证措施,采用并行处理、错误处理、内存优化和数据验证等技术。
许可信息
数据集采用知识共享署名4.0国际许可协议(https://creativecommons.org/licenses/by/4.0/)发布。
搜集汇总
数据集介绍

构建方式
在生物医学信息学领域,标准化术语映射是整合异构数据的关键挑战。BOND-CZI Benchmark数据集通过六阶段流程构建:首先从CELLxGENE Census快照生成包含1,574个数据集的清单,随后下载元数据文件并利用大语言模型进行自动化列映射,最终通过并行处理提取64,777个作者术语与本体标识符的映射对,并注入完整的本体论元数据信息。
特点
该数据集涵盖七类标准生物学术语字段,包含247种独特组织类型,以人类和小鼠为主要生物体。其突出特点在于通过专家验证确保质量,人工评审显示大语言模型映射准确率达98.9%,且包含支持度计数和置信度评分等多维度质量指标,为模型评估提供可靠基准。
使用方法
研究者可通过加载JSONL格式的文件获取训练、开发和测试集,每个样本包含作者术语、本体标识符及丰富的元数据。评估时建议采用精确匹配准确率、Top-k准确率等指标,并可按生物字段类型或生物体进行分层性能分析,以全面衡量本体标准化模型的效能。
背景与挑战
背景概述
生物医学本体标准化作为生物信息学领域的重要研究方向,旨在解决科研文献中生物学术语表述不一致的问题。BOND-CZI基准数据集由Pankaj Rajdeo等人于2024年创建,基于CELLxGENE Census单细胞转录组数据构建,包含64,777个作者术语与本体标识符的映射实例。该数据集覆盖细胞类型、组织、发育阶段等七个生物医学领域核心类别,支持CL、UBERON、EFO等多个标准本体系统,为生物医学文本挖掘和知识图谱构建提供了重要评估基准。
当前挑战
生物医学术语标准化面临作者命名习惯差异大、同义词多样性高以及跨研究数据整合困难等核心挑战。在数据集构建过程中,需要处理来自1,574个数据集的异构元数据,使用大语言模型进行自动化列映射时需确保98.9%的准确率。同时需解决过时本体术语的自动解析问题,并保持不同生物类别(如细胞类型占82%、组织占9.4%)和物种(人类88.1%、小鼠11.9%)间的数据平衡性。
常用场景
经典使用场景
在生物医学信息学领域,BOND-CZI基准数据集为评估本体标准化模型提供了权威测试平台。该数据集通过整合单细胞转录组数据中研究者提供的生物学术语与标准化本体标识符之间的映射关系,成为训练和验证深度学习模型的核心资源。研究者可利用其丰富的标注样本开发能够准确识别细胞类型、组织分类和实验方法等生物实体的智能系统,显著提升生物医学文本的语义理解能力。
实际应用
在实践应用层面,该数据集为构建智能生物医学数据集成系统提供了关键支撑。科研机构可利用其训练的模型自动标准化实验数据中的生物学术语,显著提升单细胞数据库的数据质量。制药企业能够借助此类技术整合跨研究平台的生物样本信息,加速药物靶点发现进程。临床研究领域则可利用该技术实现电子病历与生物本体术语的自动对接,为精准医疗提供标准化数据基础。
衍生相关工作
基于该数据集衍生的经典研究包括深度神经网络在本体匹配任务中的创新应用,以及多模态生物医学实体链接系统的开发。众多研究团队利用其构建了基于Transformer的生物医学实体标准化管道,推动了BioBERT、PubMedBERT等预训练模型在本体归一化任务中的性能提升。这些工作不仅扩展了生物医学自然语言处理的技术边界,还为构建下一代智能生物医学知识图谱奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



