ANESBENCH
收藏arXiv2025-04-03 更新2025-04-07 收录
下载链接:
https://github.com/MiliLab/AnesBench
下载链接
链接失效反馈官方服务:
资源简介:
ANESBENCH是由武汉大学计算机学院创建的跨语言基准,旨在评估大型语言模型在麻醉学领域的推理能力。该数据集包含4427个英文麻醉学问题,并根据认知需求将问题细分为三个层次:System 1关注事实检索,System 2涉及复杂的推理和决策,System 1.x则融合了System 1和System 2的元素。数据集来源于权威的考试材料、标准化教材和在线评估工具,并补充了中文-英文翻译,以便在多种语言环境中评估模型的知识、应用和临床推理能力。
提供机构:
武汉大学计算机学院
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
ANESBENCH数据集的构建基于权威麻醉学资源,包括美国麻醉学委员会考试材料、标准化教材及已验证的在线评估工具,通过系统化采集与多维度标注流程完成。研究团队采用分层抽样策略,从原始资料中筛选4,427道英文选择题,并运用DeepSeek-R1模型进行三级认知需求分类(System 1事实检索、System 1.x混合推理、System 2复杂决策)。为确保跨语言评估的有效性,所有问题均通过GPT-4o进行中英双向翻译,并经过专家校验以保持医学术语准确性和逻辑一致性。数据集还整合了中国麻醉学基准(CAB)的精选内容,通过数据泄漏检测算法验证了其评估可靠性。
特点
该数据集的核心特征体现在其精细的认知层级划分与跨语言设计。通过System 1/1.x/2三级体系,首次系统解构了麻醉学领域知识检索与复杂推理能力的评估维度。数据集包含3,005道事实检索题、1,060道混合推理题及362道复杂决策题,平均题长32.4个token,选项数4.3个,全面覆盖临床场景计算、药物选择等高阶认知任务。双语平行语料(EN2CN与CN2EN)的设计,使得模型语言迁移能力对推理表现的影响可被量化分析。此外,问题均来自真实临床场景与专业认证考试,具有高度的专业权威性和临床实践相关性。
使用方法
使用ANESBENCH时需采用分层评估策略:对于System 1任务可直接测试模型的知识覆盖度,而System 2任务推荐配合零样本思维链(Zero-Shot CoT)提示技术以激发分步推理。评估应包含基础解码(temperature=0)和增强推理(Best-of-N/Beam Search)两种模式,重点关注模型在不同认知层级的表现差异。跨语言版本需同步测试以分析语言迁移效应,中文评估建议补充领域适应的持续预训练(CPT)。对于训练方法验证,可采用两阶段流程:先基于AnesCorpus进行领域自适应预训练,再利用AnesQA进行监督微调(SFT),最终通过多数投票机制综合判断模型输出。
背景与挑战
背景概述
ANESBENCH是由武汉大学、浙江大学癌症医院、新加坡南洋理工大学等机构的研究团队于2025年推出的跨语言麻醉学推理评估基准。该数据集旨在系统评估大语言模型(LLMs)在麻醉学这一高度专业化医学领域的推理能力,填补了现有医学AI基准在复杂临床决策评估方面的空白。数据集包含4,427个中英文双语多选题,按认知需求分为三个层级:事实检索(System 1)、混合推理(System 1.x)和复杂决策(System 2),其数据源自美国麻醉学委员会考试材料、标准化教材和已验证的在线评估工具。作为首个系统解构麻醉学知识检索与推理能力的评估框架,ANESBENCH为开发专业医疗推理模型提供了重要方法论支撑。
当前挑战
ANESBENCH针对两大核心挑战:在领域问题层面,现有基准多局限于通用事实检索(如ImageNet式的分类任务),难以评估麻醉学特有的高风险决策能力(如术中危机处理),且缺乏对多语言环境下临床推理的测评;在构建层面,需解决专业术语的跨语言对齐(如中英文药物名映射)、认知层级的精细标注(区分直觉型与逻辑型问题),以及数据泄露风险控制(防止考题被预训练模型记忆)。实验表明,即使最先进的70B参数模型在System 2任务中准确率不足50%,突显麻醉学复杂推理的评估难度。
常用场景
经典使用场景
在麻醉学领域,ANESBENCH数据集被广泛用于评估大型语言模型(LLMs)的推理能力。通过系统性地划分问题为事实检索(System 1)、混合推理(System 1.x)和复杂决策(System 2)三个层次,该数据集为研究者提供了一个标准化的测试平台。其跨语言特性(英语和中文)进一步增强了适用性,使得模型在不同语言环境下的表现得以全面评估。
解决学术问题
ANESBENCH解决了麻醉学领域中LLMs推理能力评估的空白问题。传统医学问答数据集多聚焦于事实检索,而忽略了复杂决策和临床推理的评估。该数据集通过多层次分类和跨语言设计,不仅填补了这一空白,还为模型优化提供了关键指标,如模型规模、思维链长度和语言可迁移性对推理性能的影响。
衍生相关工作
ANESBENCH的发布催生了一系列相关研究,如基于其评估框架的模型优化方法(如连续预训练CPT和监督微调SFT的结合),以及测试时推理技术(如Best-of-N采样和束搜索)的改进。此外,以DeepSeek-R1为代表的推理增强型蒸馏模型也受此启发,推动了小规模模型在复杂麻醉推理任务中的性能提升。
以上内容由遇见数据集搜集并总结生成



