five

BIOTOOL

收藏
arXiv2026-05-07 更新2026-05-10 收录
下载链接:
https://github.com/gxx27/BioTool
下载链接
链接失效反馈
官方服务:
资源简介:
BIOTOOL是由加州大学圣地亚哥分校和MBZUAI联合开发的生物医学工具调用数据集,包含从NCBI、Ensembl和UniProt三大权威数据库精选的34种常用工具。该数据集包含7,040条经过人工验证的高质量查询-API调用对,覆盖变异学、基因组学、蛋白质组学等生物医学子领域。通过自动化API调用生成与多轮LLM辅助筛选的混合构建流程,确保了数据的生物相关性和技术准确性。该数据集旨在增强大语言模型在生物医学领域的工具调用能力,解决专业领域知识不足导致的幻觉问题,显著提升临床和科研场景下的答案可靠性。
提供机构:
加州大学圣地亚哥分校; 穆罕默德·本·扎耶德人工智能大学
创建时间:
2026-05-07
原始信息汇总

BioTool 数据集概述

BioTool 是一个专为提升大语言模型在生物医学领域工具调用能力而设计的数据集。该数据集包含 7,040 个精心构建的 (query, function_call, observation) 三元组,覆盖 127 个工具,分别来自 NCBI、UniProt 和 Ensembl 三大生物医学数据库。

数据集结构与文件

数据集托管于 Hugging Face 平台:gxx27/BioTool,包含五个 JSON 文件:

文件 描述 行数
BioTool.json 原始 (user_query, function_calling, observation) 记录,标准函数调用格式 7,040
BioTool_train.json 训练集拆分,采用 LLaMA-Factory ShareGPT 格式 5,632
BioTool_test.json 测试集拆分,采用 LLaMA-Factory ShareGPT 格式 1,408
tools.json 所有 127 个工具的 JSON-Schema 定义 127
function_mapping.json 函数名到 {database, tool} 的映射表,用于评估流水线 127

工具覆盖范围

  • NCBI:E-utilities(einfo, esearch, esummary, efetch, elink, ecitmatch)及 BLAST
  • UniProtuniprotkb, uniref, uniparc, proteomes, taxonomy, keywords, human_diseases, subcellular_locations, literature_citations, arba, unirule, genecentric, cross_referenced_databases
  • Ensembllookup, sequence, overlap, vep, comparative_genomics, linkage_disequilibrium, phenotype_annotation, variation, variant_ga4gh, cross_references, information, mapping, regulation, archive, transcript_haplotypes, ontology_and_taxonomy

数据示例

json { "user_query": "Which UniProt protein entries correspond to the TP53 gene?", "function_calling": { "name": "stream_uniprotkb", "arguments": {"query": "gene:TP53", "fields": "cc_ptm,sequence", "sort": "gene desc"} }, "observation": { "total_results": 25, "examples": [ {"accession": "A0A8J4YEJ4", "entryType": "UniProtKB unreviewed (TrEMBL)"}, {"accession": "A0A0A9W1L4", "entryType": "UniProtKB unreviewed (TrEMBL)"} ] }, "database": "uniprot", "tool": "uniprotkb" }

评估指标

对于每个测试样本,报告三项指标,并按数据库(NCBI / UniProt / Ensembl)和总体进行细分:

  • Exact Match (EM, %):预测的 {name, arguments} 与标准答案完全匹配的比例。
  • API Success (AS, %):完全匹配或预测的函数调用从实时 BioTool 返回非错误响应的比例。
  • BioTool Score (%):若为 Exact Match 则为 1.0,否则计算预测结果与标准答案 API 响应在 MedCPT-Query-Encoder 嵌入空间中的余弦相似度(若任一调用失败则为 0.0)。

微调模型

提供了一个基于 Qwen3-4B 的微调模型:gxx27/BioTool-finetuned-Qwen3-4B,是论文中最强的开源基线模型。

许可证

代码采用 Apache 2.0 许可证发布。数据集仅供研究使用,底层 API 响应受原始 NCBI、UniProt 和 Ensembl 服务许可证的约束。

搜集汇总
数据集介绍
main_image_url
构建方式
BIOTOOL的构建流程涵盖了从权威生物医学数据库(NCBI、Ensembl、UniProt)中精选34个高频使用工具,系统收集其官方API文档,并利用LLM生成多样化API参数组合。通过执行验证与启发式过滤剔除冗余及无生物学意义的调用后,保留6,391个独特API调用。随后,采用链式思维提示驱动前沿推理模型为这些API调用及其响应生成用户查询,经由LLM评估与人类专家双重审核,确保查询与API响应的信息充分性与生物学准确性,最终形成7,040个高质量的人机验证查询-API调用配对。
使用方法
BIOTOOL采用指令微调格式,主要用于对开源大语言模型进行API调用能力的专业化训练。使用时,将数据集划分为训练集与测试集(四比一比例),对4B至8B参数规模的模型进行微调,使其掌握生物医学API的参数规范与语义映射。微调后的模型可作为工具调用代理,辅助基础LLM在推理时检索NCBI、Ensembl、UniProt数据库中的可验证信息,生成基于事实的准确回答。实验表明,仅4B参数的微调模型在API调用质量上超越GPT-5.1等前沿商业模型,并显著提升下游答案的科学性与有用性。
背景与挑战
背景概述
在大型语言模型(LLM)于通用任务领域取得显著成就的背景下,其在高度专业化的生物医学领域中的表现仍不尽如人意。现存的核心瓶颈在于,LLM难以有效调用和利用生物医学专家日常工作中不可或缺的专业工具。尽管近年来通用领域的工具调用数据集已显著提升了LLM的智能体能力,但生物医学领域的现有努力大多局限于上下文学习,且仅能支持少量固定的工具。为突破这一困境,由加州大学圣迭戈分校和穆罕默德·本·扎耶德人工智能大学的研究人员(Xin Gao、Ruiyi Zhang、Meixi Du、Peijia Qin、Pengtao Xie)于2025年共同推出了BIOTOOL数据集。该数据集从NCBI、Ensembl和UniProt三大权威生物数据库中系统收集了34种高频使用工具,构建了7,040条经人工校验的高质量查询-API调用对,覆盖变异、基因组学、蛋白质组学、进化及普通生物学等多维度领域,旨在通过指令微调的方式全面提升LLM在生物医学领域的工具调用能力,为解决生物医学LLM的幻觉和精确性不足问题提供了重要的数据基石。
当前挑战
BIOTOOL数据集所面临的挑战涵盖了领域问题与构建过程两个层面。在领域层面,核心挑战在于生物医学问题通常无法依靠LLM的内化知识直接解答,必须引导模型精准映射自然语言查询至高度专业化的工具模式、标识符及参数规范,以避免传统模型因无法有效调用工具而导致的幻觉和泛化失准问题,这要求模型具备理解复杂生物术语并生成可执行的精确API调用的能力。在构建过程中,面临的主要挑战包括:如何从三大数据库中精选出具有代表性且生物意义丰富的34种工具及其124个API端点;如何基于文档合成多样化且生物学合理的API参数组合,并通过执行检查与启发式过滤策略剔除空响应或信息量不足的调用;以及如何利用LLM和人工专家协同进行问答对生成与质量审核,确保每一对查询与API调用间具有充分的必要性与充分性,最终在剔除低质量样本后保留7,040个高质量实例,整个流程对数据准确性与领域基础要求极为严苛。
常用场景
经典使用场景
在生物医学领域,大型语言模型(LLM)常因缺乏对专业工具的调用能力而产生误导性输出。BIOTOOL数据集恰如其分地填补了这一空白,它包含来自NCBI、Ensembl和UniProt三大权威数据库的34种常用工具,覆盖变异、基因组学、蛋白质组学、进化生物学及普通生物学等核心分支。该数据集的经典使用场景是作为指令微调的标杆语料,用以训练LLM将自然语言生物医学查询精准映射至结构化工具调用参数。例如,当用户询问特定物种的蛋白质功能时,经BIOTOOL训练的小型模型能够自主生成符合要求的API调用,从而从上游数据库获取可靠的生物学证据,进而有效遏制幻觉并提升回答的严谨性。
解决学术问题
BIOTOOL数据集系统性地攻克了LLM在生物医学领域中工具调用能力不足的学术难题。传统方法依赖上下文学习,受限于有限的上下文窗口,仅能处理少量工具且难以捕捉复杂的参数规范,这在高风险的生物医学应用中难以推广。该数据集通过提供7040条经过人工验证的高质量查询—API调用对,为模型提供了高密度的监督信号,使其能够掌握严格的数据库接口语法与语义映射规则。实验表明,仅4B参数的Qwen-3模型经BIOTOOL微调后,在调用质量上以15%的优势超越顶尖闭源模型Claude-4.5-Sonnet,并在生物医学答案质量评估中获得84.5%的胜率,充分证明了其在弥合通用LLM与专业生物医学数据库之间鸿沟中的深远学术意义与卓越影响力。
实际应用
BIOTOOL数据集的实际应用价值体现在赋能生物医学领域的科研与临床实践。利用该数据集训练的工具调用模型,能够作为智能代理的核心组件,辅助基础LLM实时访问和检索权威数据库中的生物学事实。在具体的应用场景中,诸如基因功能注释、序列比对分析、连锁不平衡检测等高度专业化的任务均能受益。例如,当研究人员查询特定基因组区域的变异关联时,BIOTOOL增强的LLM可自动构建并执行正确的API请求,返回经过数据库验证的量化数据,从而替代低效的手动检索流程。这种将自然语言理解与结构化数据检索无缝衔接的能力,极大地提高了信息获取的效率与准确性,为高通量数据分析、精准医学决策及自动化科学发现提供了坚实可靠的技术支撑。
数据集最近研究
最新研究方向
当前BIOTOOL数据集的研究前沿聚焦于弥合通用大型语言模型在生物医学领域调用专业工具的鸿沟,通过构建涵盖NCBI、Ensembl和UniProt三大权威数据库中34种高频工具的7040条人工校验查询-API调用对,为领域微调提供高质量监督信号。该工作突破性地将小参数量模型(如4B Qwen-3)的API调用能力提升至超越GPT-5.1等前沿商业模型15%以上,在变异分析、基因组学、蛋白质组学等子领域展现出精准的参数映射与语义对齐能力。其核心意义在于验证了专业化指令微调数据集可有效抑制生物医学幻觉,通过多源数据库的可靠观测值增强LLM回答的可验证性与科学精确度,为构建可信赖的生物医学智能体奠定了关键数据基础。
相关研究论文
  • 1
    BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models加州大学圣地亚哥分校; 穆罕默德·本·扎耶德人工智能大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作