BFCS
收藏github2026-02-26 更新2026-02-27 收录
下载链接:
https://github.com/ChampionZhong/BFCS
下载链接
链接失效反馈官方服务:
资源简介:
BFCS是第一个专门设计用于评估大型语言模型(LLMs)在科学领域中函数调用能力的执行基准。与静态基准不同,BFCS采用执行优先的理念:包括1,648个函数-查询-答案对,涵盖化学、生物学、药学、医学和材料科学;集成了48个真实的科学Python库(如RDKit、Biopython)和2,100个可执行工具;使用Apptainer进行容器原生隔离,以确保可重复性并验证功能正确性(ESR)和语义准确性(AMR)。
BFCS is the first execution benchmark specifically designed to evaluate the function-calling capabilities of Large Language Models (LLMs) in scientific domains. Unlike static benchmarks, BFCS adopts an execution-first philosophy: it includes 1,648 function-query-answer triplets covering chemistry, biology, pharmacy, medicine, and materials science; integrates 48 real-world scientific Python libraries such as RDKit and Biopython, as well as 2,100 executable tools; and uses Apptainer for container-native isolation to ensure reproducibility and verify both functional correctness (ESR) and semantic accuracy (AMR).
创建时间:
2026-02-09
原始信息汇总
BFCS 数据集概述
数据集基本信息
- 数据集名称: BFCS (A Large-Scale Execution-Based Benchmark for Function Calling in Science)
- 核心定位: 首个专门用于评估大语言模型在科学领域函数调用能力的、基于执行的基准测试。
- 核心理念: 采用“执行优先”哲学,通过实际执行来验证功能正确性。
- 数据规模: 包含 1,648 个函数-查询-答案对。
- 覆盖领域: 化学、生物学、药学、医学和材料科学。
数据集内容与结构
- 数据文件: 数据集位于
./data目录下,按认知场景分层:./data/simple.jsonl: 无干扰项的原子指令合成。./data/multiple.jsonl: 在语义相似的干扰项中进行工具选择。./data/parallel.jsonl: 需要多个独立调用的组合批处理。
- 执行环境: 集成了 48 个真实的科学 Python 库(例如 RDKit, Biopython),包含 2,100 个可执行工具。
- 环境管理: 使用 Apptainer 进行容器原生隔离,确保可复现性。
- 评估指标:
- ESR (执行成功率): 衡量代码是否能运行。
- AMR (答案匹配率): 衡量科学逻辑是否正确。
- Gap (差距): ESR - AMR,正值表示潜在的静默失败。
主要评估结果
评估了多款开源和闭源大语言模型在简单、多重、并行及整体场景下的ESR、AMR和Gap指标。表现最佳的模型包括Claude-Opus-4.5、Gemini-3-Pro、Qwen3-235B等。
工具包分类详情
数据集整合了48个科学计算工具包,涵盖5大科学领域,具体如下表所示:
| # | 仓库名称 (原始仓库) | 包名称 (包卡片) | 类别 | 工具数量 | 许可证 |
|---|---|---|---|---|---|
| 1 | AiZynthFinder | aizynthfinder | 药学 | 3 | MIT |
| 2 | anndata | anndata | 生物学 | 8 | BSD-3-Clause |
| 3 | batchgenerators | batchgenerators | 医学 | 26 | Apache-2.0 |
| 4 | bioemu | bioemu | 生物学 | 153 | MIT |
| 5 | biopython | Bio | 生物学 | 4 | BSD-3-Clause |
| 6 | boltz | boltz | 药学 | 46 | MIT |
| 7 | CEBRA | cebra | 生物学 | 14 | Apache-2.0 |
| 8 | chai-lab | chai_lab | 生物学 | 12 | Apache-2.0 |
| 9 | chembl-downloader | chembl_downloader | 药学 | 2 | MIT |
| 10 | ChemInformant | ChemInformant | 化学 | 5 | MIT |
| 11 | chemprop | chemprop | 药学 | 4 | MIT |
| 12 | chempy | chempy | 化学 | 45 | BSD-2-Clause |
| 13 | CIRpy | cirpy | 化学 | 6 | MIT |
| 14 | datamol | datamol | 化学 | 13 | Apache-2.0 |
| 15 | deepchem | deepchem | 药学 | 128 | MIT |
| 16 | DeepPurpose | DeepPurpose | 药学 | 31 | BSD-3-Clause |
| 17 | descriptastorus | descriptastorus | 化学 | 3 | BSD-3-Clause |
| 18 | drugbank_downloader | drugbank_downloader | 药学 | 1 | MIT |
| 19 | dscribe | dscribe | 材料 | 7 | Apache-2.0 |
| 20 | gpaw | gpaw | 材料 | 263 | GPLv3+ |
| 21 | guacamol | guacamol | 药学 | 5 | MIT |
| 22 | lungmask | lungmask | 医学 | 8 | Apache-2.0 |
| 23 | mace | mace | 材料 | 7 | MIT |
| 24 | MedCLIP | medclip | 医学 | 3 | Unknown |
| 25 | mendeleev | mendeleev | 化学 | 23 | MIT |
| 26 | molmass | molmass | 化学 | 14 | BSD-3-Clause |
| 27 | MONAI | monai | 医学 | 96 | Apache-2.0 |
| 28 | mordred | mordred | 化学 | 1 | BSD-3-Clause |
| 29 | ncbi-genome-download | ncbi_genome_download | 生物学 | 21 | Apache-2.0 |
| 30 | NistChemPy | nistchempy | 化学 | 1 | MIT |
| 31 | nnUNet | nnunetv2 | 医学 | 20 | Apache-2.0 |
| 32 | periodictable | periodictable | 化学 | 21 | BSD-3-Clause |
| 33 | PubChemPy | pubchempy | 化学 | 2 | MIT |
| 34 | pybel | pybel | 生物学 | 46 | MIT |
| 35 | pyEQL | pyEQL | 化学 | 4 | LGPLv3 |
| 36 | pyRiemann | pyriemann | 医学 | 100 | BSD-3-Clause |
| 37 | pyscf | pyscf | 化学 | 449 | Apache-2.0 |
| 38 | rdkit | rdkit | 化学 | 110 | BSD-3-Clause |
| 39 | robert | robert | 化学 | 38 | MIT |
| 40 | scanpy | scanpy | 生物学 | 21 | BSD-3-Clause |
| 41 | selfies | selfies | 化学 | 13 | Apache-2.0 |
| 42 | spikeinterface | spikeinterface | 生物学 | 159 | MIT |
| 43 | stk | stk | 化学 | 12 | MIT |
| 44 | tape | tape | 生物学 | 7 | BSD-3-Clause |
| 45 | TDC | tdc | 药学 | 118 | MIT |
| 46 | torchdrug | torchdrug | 药学 | 16 | Apache-2.0 |
| 47 | torchio | torchio | 医学 | 3 | Apache-2.0 |
| 48 | useful_rdkit_utils | useful_rdkit_utils | 化学 | 8 | MIT |
使用与获取
- 仓库地址: https://github.com/ChampionZhong/BFCS
- 数据获取: 克隆仓库后,数据位于
./data目录。 - 容器获取: 预构建的 Apptainer 镜像发布于 GitHub Packages,可直接拉取。
- 评估脚本: 使用
python evaluation/run_eval.py运行评估。
许可证
- 本仓库中的包装器源代码和构建脚本遵循 Apache License 2.0。
- 容器内安装的软件包保留其原始许可证,使用者需自行遵守。
- 特别注意:
gpaw包使用 GPLv3+ 许可证,使用时可能产生传染性义务。
引用
如需引用本工作,请使用提供的BibTeX条目。
搜集汇总
数据集介绍
构建方式
在科学计算领域,评估大型语言模型的功能调用能力需要严谨且可复现的基准。BFCS数据集通过整合化学、生物学、药学、医学和材料科学五大领域的48个真实科学Python库,构建了包含2100个可执行工具的环境。其核心构建理念遵循“执行优先”原则,基于1648个函数-查询-答案对,利用Apptainer容器技术实现依赖隔离,确保每个科学工具在标准化的环境中运行,从而为模型评估提供了高度可控且可复现的测试平台。
特点
BFCS作为首个面向科学领域的功能调用执行基准,其显著特点在于覆盖了真实世界的大规模科学工具链,并设计了三种渐进式认知场景。数据集不仅包含简单的原子指令合成,还涉及多重语义相似工具的甄别选择,以及需要并行独立调用的组合批处理任务。这种分层设计能够全面评估模型在复杂科学工作流中的工具调用准确性与逻辑连贯性,其采用的ESR与AMR双指标评估体系,有效区分了代码执行成功与科学逻辑正确之间的潜在差异。
使用方法
使用BFCS数据集进行评估前,需预先安装Apptainer以管理复杂的科学依赖环境。用户可直接从GitHub仓库克隆数据集,其数据已按认知场景分层存储在指定目录中。评估时,通过运行提供的Python脚本并指定模型名称与场景参数,即可在容器化的隔离环境中自动执行测试。数据集配套的容器镜像已发布至GitHub Packages,支持直接拉取使用,极大简化了环境配置流程,使研究者能够专注于模型能力的评估与比较。
背景与挑战
背景概述
在人工智能与科学计算交叉融合的时代背景下,大型语言模型在专业领域的工具调用能力成为衡量其实际应用价值的关键。BFCS(Benchmark for Function Calling in Science)数据集应运而生,由Zhong等人于2026年创建,旨在填补科学领域执行式评估基准的空白。该数据集聚焦于化学、生物学、药学、医学和材料科学五大核心学科,构建了包含1,648个函数-查询-答案对的大规模测试集,并集成了48个真实科学Python库与2,100个可执行工具。其首创的执行优先理念,通过容器化隔离技术确保评估的可复现性,为精准衡量模型在复杂科学场景下的代码生成与逻辑推理能力提供了标准化范本,对推动AI for Science的发展具有里程碑意义。
当前挑战
BFCS数据集致力于解决科学领域函数调用这一核心问题,其首要挑战在于如何精准评估模型在生成可执行代码之外的科学逻辑正确性。现有模型常出现执行成功但语义错误的‘静默失败’现象,ESR与AMR指标间的显著差距揭示了模型对深层科学概念的理解不足。在数据集构建过程中,研究者面临多重技术壁垒:跨学科工具链的异构集成、多达48个科学库依赖环境的复杂封装与隔离、以及确保2,100个工具在容器化环境下稳定调用的工程难题。此外,设计覆盖原子指令合成、多工具选择与并行批处理等不同认知层次的测试场景,以全面检验模型的泛化与组合推理能力,亦是构建过程中的关键挑战。
常用场景
经典使用场景
在科学计算与人工智能交叉领域,BFCS数据集作为首个执行导向的基准测试工具,其经典应用场景聚焦于评估大型语言模型在复杂科学环境下的函数调用能力。该数据集通过整合化学、生物学、药学、医学和材料科学五大领域的48个真实科学Python库与2100个可执行工具,构建了一个标准化的评估环境。研究者通常利用其包含的1648个函数-查询-答案对,在三种认知场景——原子指令合成、语义相似干扰项下的工具选择以及需要多独立调用的组合批处理——中系统性地测试模型生成可执行代码并产生正确科学逻辑结果的能力,从而精准衡量模型在真实科研工作流中的实际效用。
实际应用
BFCS数据集的实际应用场景紧密贴合前沿科研与产业研发需求。在药物发现领域,它可以评估AI模型调用RDKit、DeepChem等工具进行分子性质预测或虚拟筛选的准确性;在生物信息学中,则用于测试模型利用Biopython、Scanpy处理基因组或单细胞数据的能力。材料科学家可借助其评估模型通过pyscf、gpaw等库进行量子化学计算或材料模拟的可靠性。此外,该数据集支撑的标准化评估框架,能够为科技公司、研究机构在开发面向化学、生物、医疗的专用AI助手或自动化科研平台时,提供关键的模型选型与能力验证依据,加速AI工具在真实实验室环境中的安全、有效集成。
衍生相关工作
BFCS数据集的推出,已经衍生并激励了一系列围绕科学领域代码生成与工具调用评估的经典研究工作。其首创的执行基准范式为后续科学专用基准测试树立了标杆,可能启发类似架构在物理、工程等其他计算密集型学科的拓展。数据集揭示的ESR与AMR差距问题,促使研究社区更深入地探索如何提升大模型科学推理的语义保真度,减少“运行成功但逻辑错误”的静默风险。同时,其集成的庞大科学工具链与容器化环境,为开发更强大的科学智能体(Agent)提供了高质量的训练与测试沙箱,推动了如AI-driven实验设计、自动化文献挖掘与代码生成等方向的技术演进,持续丰富科学机器学习的研究生态。
以上内容由遇见数据集搜集并总结生成



