ANESBENCH

Name: ANESBENCH
Creator: 武汉大学计算机学院
Published: 2025-04-03 16:54:23
License: 暂无描述

arXiv2025-04-03 更新2025-04-07 收录

下载链接：

https://github.com/MiliLab/AnesBench

下载链接

链接失效反馈

官方服务：

资源简介：

ANESBENCH是由武汉大学计算机学院创建的跨语言基准，旨在评估大型语言模型在麻醉学领域的推理能力。该数据集包含4427个英文麻醉学问题，并根据认知需求将问题细分为三个层次：System 1关注事实检索，System 2涉及复杂的推理和决策，System 1.x则融合了System 1和System 2的元素。数据集来源于权威的考试材料、标准化教材和在线评估工具，并补充了中文-英文翻译，以便在多种语言环境中评估模型的知识、应用和临床推理能力。

提供机构：

武汉大学计算机学院

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

ANESBENCH数据集的构建基于权威麻醉学资源，包括美国麻醉学委员会考试材料、标准化教材及已验证的在线评估工具，通过系统化采集与多维度标注流程完成。研究团队采用分层抽样策略，从原始资料中筛选4,427道英文选择题，并运用DeepSeek-R1模型进行三级认知需求分类（System 1事实检索、System 1.x混合推理、System 2复杂决策）。为确保跨语言评估的有效性，所有问题均通过GPT-4o进行中英双向翻译，并经过专家校验以保持医学术语准确性和逻辑一致性。数据集还整合了中国麻醉学基准（CAB）的精选内容，通过数据泄漏检测算法验证了其评估可靠性。

特点

该数据集的核心特征体现在其精细的认知层级划分与跨语言设计。通过System 1/1.x/2三级体系，首次系统解构了麻醉学领域知识检索与复杂推理能力的评估维度。数据集包含3,005道事实检索题、1,060道混合推理题及362道复杂决策题，平均题长32.4个token，选项数4.3个，全面覆盖临床场景计算、药物选择等高阶认知任务。双语平行语料（EN2CN与CN2EN）的设计，使得模型语言迁移能力对推理表现的影响可被量化分析。此外，问题均来自真实临床场景与专业认证考试，具有高度的专业权威性和临床实践相关性。

使用方法

使用ANESBENCH时需采用分层评估策略：对于System 1任务可直接测试模型的知识覆盖度，而System 2任务推荐配合零样本思维链（Zero-Shot CoT）提示技术以激发分步推理。评估应包含基础解码（temperature=0）和增强推理（Best-of-N/Beam Search）两种模式，重点关注模型在不同认知层级的表现差异。跨语言版本需同步测试以分析语言迁移效应，中文评估建议补充领域适应的持续预训练（CPT）。对于训练方法验证，可采用两阶段流程：先基于AnesCorpus进行领域自适应预训练，再利用AnesQA进行监督微调（SFT），最终通过多数投票机制综合判断模型输出。

背景与挑战

背景概述

ANESBENCH是由武汉大学、浙江大学癌症医院、新加坡南洋理工大学等机构的研究团队于2025年推出的跨语言麻醉学推理评估基准。该数据集旨在系统评估大语言模型（LLMs）在麻醉学这一高度专业化医学领域的推理能力，填补了现有医学AI基准在复杂临床决策评估方面的空白。数据集包含4,427个中英文双语多选题，按认知需求分为三个层级：事实检索（System 1）、混合推理（System 1.x）和复杂决策（System 2），其数据源自美国麻醉学委员会考试材料、标准化教材和已验证的在线评估工具。作为首个系统解构麻醉学知识检索与推理能力的评估框架，ANESBENCH为开发专业医疗推理模型提供了重要方法论支撑。

当前挑战

ANESBENCH针对两大核心挑战：在领域问题层面，现有基准多局限于通用事实检索（如ImageNet式的分类任务），难以评估麻醉学特有的高风险决策能力（如术中危机处理），且缺乏对多语言环境下临床推理的测评；在构建层面，需解决专业术语的跨语言对齐（如中英文药物名映射）、认知层级的精细标注（区分直觉型与逻辑型问题），以及数据泄露风险控制（防止考题被预训练模型记忆）。实验表明，即使最先进的70B参数模型在System 2任务中准确率不足50%，突显麻醉学复杂推理的评估难度。

常用场景

经典使用场景

在麻醉学领域，ANESBENCH数据集被广泛用于评估大型语言模型（LLMs）的推理能力。通过系统性地划分问题为事实检索（System 1）、混合推理（System 1.x）和复杂决策（System 2）三个层次，该数据集为研究者提供了一个标准化的测试平台。其跨语言特性（英语和中文）进一步增强了适用性，使得模型在不同语言环境下的表现得以全面评估。

解决学术问题

ANESBENCH解决了麻醉学领域中LLMs推理能力评估的空白问题。传统医学问答数据集多聚焦于事实检索，而忽略了复杂决策和临床推理的评估。该数据集通过多层次分类和跨语言设计，不仅填补了这一空白，还为模型优化提供了关键指标，如模型规模、思维链长度和语言可迁移性对推理性能的影响。

衍生相关工作

ANESBENCH的发布催生了一系列相关研究，如基于其评估框架的模型优化方法（如连续预训练CPT和监督微调SFT的结合），以及测试时推理技术（如Best-of-N采样和束搜索）的改进。此外，以DeepSeek-R1为代表的推理增强型蒸馏模型也受此启发，推动了小规模模型在复杂麻醉推理任务中的性能提升。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集