MEDAGENTSBENCH

Name: MEDAGENTSBENCH
Creator: 耶鲁大学，斯坦福大学，UT Southwestern医学中心
Published: 2025-03-10 23:38:44
License: 暂无描述

arXiv2025-03-10 更新2025-03-12 收录

下载链接：

https://github.com/gersteinlab/medagents-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

MEDAGENTSBENCH是一个专门设计用于评估复杂医疗推理任务的基准，由耶鲁大学等机构的研究人员创建。该数据集从七个成熟的医疗数据集中精心挑选出复杂问题，这些问题需要多步骤的临床推理、诊断制定和治疗计划。数据集旨在解决现有评估中存在的三个关键问题：简单问题过多、抽样和评估协议不一致、缺乏性能、成本和推理时间的系统分析。数据集包含了来自MedQA、PubMedQA、MedMCQA、MedBullets、MMLU、MMLU-Pro、MedExQA和MedXpertQA等数据集的问题，通过严格的筛选过程确保问题难度，并包含了医学专业人士的人工注释来验证推理深度要求。

MEDAGENTSBENCH is a benchmark specially designed for evaluating complex medical reasoning tasks, developed by researchers from institutions including Yale University. This dataset carefully selects complex questions from seven well-established medical datasets, which require multi-step clinical reasoning, diagnostic formulation and treatment planning. The dataset aims to address three critical issues in existing evaluation benchmarks: overabundance of simple questions, inconsistent sampling and evaluation protocols, and the absence of systematic analysis of model performance, computational cost and inference time. The dataset includes questions sourced from MedQA, PubMedQA, MedMCQA, MedBullets, MMLU, MMLU-Pro, MedExQA and MedXpertQA. It adopts strict screening procedures to guarantee the difficulty of the questions, and incorporates manual annotations from medical professionals to validate the required depth of reasoning.

提供机构：

耶鲁大学，斯坦福大学，UT Southwestern医学中心

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

MEDAGENTSBENCH数据集的构建方式是将七个已建立的医疗数据集进行整合，并从中筛选出能够挑战当前模型的问题。这些数据集包括MedQA、PubMedQA、MedMCQA、MedBullets、MMLU、MMLU-Pro、MedExQA和MedXpertQA。为了确保问题的难度，MEDAGENTSBENCH采用了对抗性过滤和污染分析。对抗性过滤用于识别模型难以回答的问题，污染分析则确保问题的有效性。此外，MEDAGENTSBENCH还包含了来自医疗专业人员的注释，以验证问题的临床相关性和推理深度。

使用方法

MEDAGENTSBENCH数据集的使用方法包括对各种基础模型和代理推理方法进行评估。为了确保公平比较，所有实验都采用相同的提示模板和评估协议。对于需要多轮推理的基于代理的方法，MEDAGENTSBENCH实现了标准化的两轮推理协议。此外，为了分析成本性能权衡，MEDAGENTSBENCH还提供了成本估计。这对于理解高级思维模型和基于代理的框架的成本效益至关重要。实验结果表明，MEDAGENTSBENCH能够有效评估复杂医疗推理能力，并为不同计算约束下的最佳模型选择提供参考。

背景与挑战

背景概述

随着大型语言模型（LLMs）在医学问答基准测试中展现出惊人的性能，对其先进方法进行有意义的评估和区分变得日益困难。为了解决这一问题，Tang等人提出了MEDAGENTSBENCH，这是一个专注于挑战性医疗问题的基准测试，这些问题需要多步骤的临床推理、诊断制定和治疗计划。MEDAGENTSBENCH汇集了七个成熟的医学数据集，旨在解决现有评估中的三个关键局限性：简单问题的普遍存在、研究之间采样和评估协议的不一致，以及缺乏对性能、成本和推理时间之间相互作用的系统性分析。该基准测试展示了最新思维模型DEEPSEEK R1和OPENAI O3在复杂医疗推理任务中的卓越性能，并表明基于搜索的代理方法在性能-成本比方面具有优势。

当前挑战

MEDAGENTSBENCH面临的挑战包括：1) 所解决的领域问题，即复杂医疗场景中的推理和决策制定，这些场景需要深层次的领域专业知识和多步骤推理；2) 构建过程中遇到的挑战，包括确保问题难度、多样性和推理深度，以及避免数据污染，以确保评估的有效性和可靠性。

常用场景

经典使用场景

在医学领域，MEDAGENTSBENCH 数据集主要用于评估大型语言模型（LLMs）在复杂医疗推理任务中的表现，例如多步骤临床推理、诊断制定和治疗规划。该数据集的设计旨在解决现有评估中的三个关键局限性：普遍存在简单问题、不一致的采样和评估协议以及缺乏对性能、成本和推理时间之间相互作用的系统性分析。

解决学术问题

MEDAGENTSBENCH 数据集通过引入更具挑战性的问题，解决了当前模型在标准测试中表现良好，但在复杂医疗场景中仍面临困难的问题。该数据集通过引入更具挑战性的问题，解决了当前模型在标准测试中表现良好，但在复杂医疗场景中仍面临困难的问题。通过实验，该数据集展示了最新思维模型（如 DEEPSEEK R1 和 OPENAI O3）在复杂医疗推理任务中的卓越表现，以及高级搜索式代理方法相对于传统方法的优势。

实际应用

MEDAGENTSBENCH 数据集在实际应用中，可以帮助研究人员和开发者评估和改进他们在医疗领域的自然语言处理任务中的模型。该数据集可以帮助研究人员和开发者评估和改进他们在医疗领域的自然语言处理任务中的模型。通过对不同模型和方法的分析，该数据集可以为医疗推理任务提供最佳模型选择，同时考虑计算成本和推理时间。

数据集最近研究