ANESBENCH
收藏arXiv2025-04-03 更新2025-04-07 收录
下载链接:
https://github.com/MiliLab/AnesBench
下载链接
链接失效反馈官方服务:
资源简介:
ANESBENCH是由武汉大学计算机学院创建的跨语言基准,旨在评估大型语言模型在麻醉学领域的推理能力。该数据集包含4427个英文麻醉学问题,并根据认知需求将问题细分为三个层次:System 1关注事实检索,System 2涉及复杂的推理和决策,System 1.x则融合了System 1和System 2的元素。数据集来源于权威的考试材料、标准化教材和在线评估工具,并补充了中文-英文翻译,以便在多种语言环境中评估模型的知识、应用和临床推理能力。
ANESBENCH is a cross-lingual benchmark developed by the School of Computer Science at Wuhan University, designed to assess the reasoning capabilities of large language models (LLMs) in the field of anesthesiology. This dataset comprises 4,427 English anesthesiology questions, which are categorized into three levels based on cognitive demand: System 1 focuses on factual retrieval, System 2 involves complex reasoning and decision-making, and System 1.x integrates elements from both System 1 and System 2. The dataset is sourced from authoritative examination materials, standardized textbooks, and online assessment tools, and supplemented with Chinese-English translations to enable evaluation of models' knowledge, application, and clinical reasoning abilities across multiple linguistic contexts.
提供机构:
武汉大学计算机学院
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
ANESBENCH数据集的构建基于权威麻醉学资源,包括美国麻醉学委员会考试材料、标准化教材及已验证的在线评估工具,通过系统化采集与多维度标注流程完成。研究团队采用分层抽样策略,从原始资料中筛选4,427道英文选择题,并运用DeepSeek-R1模型进行三级认知需求分类(System 1事实检索、System 1.x混合推理、System 2复杂决策)。为确保跨语言评估的有效性,所有问题均通过GPT-4o进行中英双向翻译,并经过专家校验以保持医学术语准确性和逻辑一致性。数据集还整合了中国麻醉学基准(CAB)的精选内容,通过数据泄漏检测算法验证了其评估可靠性。
特点
该数据集的核心特征体现在其精细的认知层级划分与跨语言设计。通过System 1/1.x/2三级体系,首次系统解构了麻醉学领域知识检索与复杂推理能力的评估维度。数据集包含3,005道事实检索题、1,060道混合推理题及362道复杂决策题,平均题长32.4个token,选项数4.3个,全面覆盖临床场景计算、药物选择等高阶认知任务。双语平行语料(EN2CN与CN2EN)的设计,使得模型语言迁移能力对推理表现的影响可被量化分析。此外,问题均来自真实临床场景与专业认证考试,具有高度的专业权威性和临床实践相关性。
使用方法
使用ANESBENCH时需采用分层评估策略:对于System 1任务可直接测试模型的知识覆盖度,而System 2任务推荐配合零样本思维链(Zero-Shot CoT)提示技术以激发分步推理。评估应包含基础解码(temperature=0)和增强推理(Best-of-N/Beam Search)两种模式,重点关注模型在不同认知层级的表现差异。跨语言版本需同步测试以分析语言迁移效应,中文评估建议补充领域适应的持续预训练(CPT)。对于训练方法验证,可采用两阶段流程:先基于AnesCorpus进行领域自适应预训练,再利用AnesQA进行监督微调(SFT),最终通过多数投票机制综合判断模型输出。
背景与挑战
背景概述
ANESBENCH是由武汉大学、浙江大学癌症医院、新加坡南洋理工大学等机构的研究团队于2025年推出的跨语言麻醉学推理评估基准。该数据集旨在系统评估大语言模型(LLMs)在麻醉学这一高度专业化医学领域的推理能力,填补了现有医学AI基准在复杂临床决策评估方面的空白。数据集包含4,427个中英文双语多选题,按认知需求分为三个层级:事实检索(System 1)、混合推理(System 1.x)和复杂决策(System 2),其数据源自美国麻醉学委员会考试材料、标准化教材和已验证的在线评估工具。作为首个系统解构麻醉学知识检索与推理能力的评估框架,ANESBENCH为开发专业医疗推理模型提供了重要方法论支撑。
当前挑战
ANESBENCH针对两大核心挑战:在领域问题层面,现有基准多局限于通用事实检索(如ImageNet式的分类任务),难以评估麻醉学特有的高风险决策能力(如术中危机处理),且缺乏对多语言环境下临床推理的测评;在构建层面,需解决专业术语的跨语言对齐(如中英文药物名映射)、认知层级的精细标注(区分直觉型与逻辑型问题),以及数据泄露风险控制(防止考题被预训练模型记忆)。实验表明,即使最先进的70B参数模型在System 2任务中准确率不足50%,突显麻醉学复杂推理的评估难度。
常用场景
经典使用场景
在麻醉学领域,ANESBENCH数据集被广泛用于评估大型语言模型(LLMs)的推理能力。通过系统性地划分问题为事实检索(System 1)、混合推理(System 1.x)和复杂决策(System 2)三个层次,该数据集为研究者提供了一个标准化的测试平台。其跨语言特性(英语和中文)进一步增强了适用性,使得模型在不同语言环境下的表现得以全面评估。
解决学术问题
ANESBENCH解决了麻醉学领域中LLMs推理能力评估的空白问题。传统医学问答数据集多聚焦于事实检索,而忽略了复杂决策和临床推理的评估。该数据集通过多层次分类和跨语言设计,不仅填补了这一空白,还为模型优化提供了关键指标,如模型规模、思维链长度和语言可迁移性对推理性能的影响。
衍生相关工作
ANESBENCH的发布催生了一系列相关研究,如基于其评估框架的模型优化方法(如连续预训练CPT和监督微调SFT的结合),以及测试时推理技术(如Best-of-N采样和束搜索)的改进。此外,以DeepSeek-R1为代表的推理增强型蒸馏模型也受此启发,推动了小规模模型在复杂麻醉推理任务中的性能提升。
以上内容由遇见数据集搜集并总结生成



