BIOTOOL
收藏BioTool 数据集概述
BioTool 是一个专为提升大语言模型在生物医学领域工具调用能力而设计的数据集。该数据集包含 7,040 个精心构建的 (query, function_call, observation) 三元组,覆盖 127 个工具,分别来自 NCBI、UniProt 和 Ensembl 三大生物医学数据库。
数据集结构与文件
数据集托管于 Hugging Face 平台:gxx27/BioTool,包含五个 JSON 文件:
| 文件 | 描述 | 行数 |
|---|---|---|
BioTool.json |
原始 (user_query, function_calling, observation) 记录,标准函数调用格式 |
7,040 |
BioTool_train.json |
训练集拆分,采用 LLaMA-Factory ShareGPT 格式 | 5,632 |
BioTool_test.json |
测试集拆分,采用 LLaMA-Factory ShareGPT 格式 | 1,408 |
tools.json |
所有 127 个工具的 JSON-Schema 定义 | 127 |
function_mapping.json |
函数名到 {database, tool} 的映射表,用于评估流水线 |
127 |
工具覆盖范围
- NCBI:E-utilities(
einfo,esearch,esummary,efetch,elink,ecitmatch)及 BLAST - UniProt:
uniprotkb,uniref,uniparc,proteomes,taxonomy,keywords,human_diseases,subcellular_locations,literature_citations,arba,unirule,genecentric,cross_referenced_databases - Ensembl:
lookup,sequence,overlap,vep,comparative_genomics,linkage_disequilibrium,phenotype_annotation,variation,variant_ga4gh,cross_references,information,mapping,regulation,archive,transcript_haplotypes,ontology_and_taxonomy
数据示例
json { "user_query": "Which UniProt protein entries correspond to the TP53 gene?", "function_calling": { "name": "stream_uniprotkb", "arguments": {"query": "gene:TP53", "fields": "cc_ptm,sequence", "sort": "gene desc"} }, "observation": { "total_results": 25, "examples": [ {"accession": "A0A8J4YEJ4", "entryType": "UniProtKB unreviewed (TrEMBL)"}, {"accession": "A0A0A9W1L4", "entryType": "UniProtKB unreviewed (TrEMBL)"} ] }, "database": "uniprot", "tool": "uniprotkb" }
评估指标
对于每个测试样本,报告三项指标,并按数据库(NCBI / UniProt / Ensembl)和总体进行细分:
- Exact Match (EM, %):预测的
{name, arguments}与标准答案完全匹配的比例。 - API Success (AS, %):完全匹配或预测的函数调用从实时 BioTool 返回非错误响应的比例。
- BioTool Score (%):若为 Exact Match 则为 1.0,否则计算预测结果与标准答案 API 响应在 MedCPT-Query-Encoder 嵌入空间中的余弦相似度(若任一调用失败则为 0.0)。
微调模型
提供了一个基于 Qwen3-4B 的微调模型:gxx27/BioTool-finetuned-Qwen3-4B,是论文中最强的开源基线模型。
许可证
代码采用 Apache 2.0 许可证发布。数据集仅供研究使用,底层 API 响应受原始 NCBI、UniProt 和 Ensembl 服务许可证的约束。

- 1BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models加州大学圣地亚哥分校; 穆罕默德·本·扎耶德人工智能大学 · 2026年



