five

MEDAGENTSBENCH|医疗推理数据集|评估基准数据集

收藏
arXiv2025-03-10 更新2025-03-12 收录
医疗推理
评估基准
下载链接:
https://github.com/gersteinlab/medagents-benchmark
下载链接
链接失效反馈
资源简介:
MEDAGENTSBENCH是一个专门设计用于评估复杂医疗推理任务的基准,由耶鲁大学等机构的研究人员创建。该数据集从七个成熟的医疗数据集中精心挑选出复杂问题,这些问题需要多步骤的临床推理、诊断制定和治疗计划。数据集旨在解决现有评估中存在的三个关键问题:简单问题过多、抽样和评估协议不一致、缺乏性能、成本和推理时间的系统分析。数据集包含了来自MedQA、PubMedQA、MedMCQA、MedBullets、MMLU、MMLU-Pro、MedExQA和MedXpertQA等数据集的问题,通过严格的筛选过程确保问题难度,并包含了医学专业人士的人工注释来验证推理深度要求。
提供机构:
耶鲁大学,斯坦福大学,UT Southwestern医学中心
创建时间:
2025-03-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
MEDAGENTSBENCH数据集的构建方式是将七个已建立的医疗数据集进行整合,并从中筛选出能够挑战当前模型的问题。这些数据集包括MedQA、PubMedQA、MedMCQA、MedBullets、MMLU、MMLU-Pro、MedExQA和MedXpertQA。为了确保问题的难度,MEDAGENTSBENCH采用了对抗性过滤和污染分析。对抗性过滤用于识别模型难以回答的问题,污染分析则确保问题的有效性。此外,MEDAGENTSBENCH还包含了来自医疗专业人员的注释,以验证问题的临床相关性和推理深度。
使用方法
MEDAGENTSBENCH数据集的使用方法包括对各种基础模型和代理推理方法进行评估。为了确保公平比较,所有实验都采用相同的提示模板和评估协议。对于需要多轮推理的基于代理的方法,MEDAGENTSBENCH实现了标准化的两轮推理协议。此外,为了分析成本性能权衡,MEDAGENTSBENCH还提供了成本估计。这对于理解高级思维模型和基于代理的框架的成本效益至关重要。实验结果表明,MEDAGENTSBENCH能够有效评估复杂医疗推理能力,并为不同计算约束下的最佳模型选择提供参考。
背景与挑战
背景概述
随着大型语言模型(LLMs)在医学问答基准测试中展现出惊人的性能,对其先进方法进行有意义的评估和区分变得日益困难。为了解决这一问题,Tang等人提出了MEDAGENTSBENCH,这是一个专注于挑战性医疗问题的基准测试,这些问题需要多步骤的临床推理、诊断制定和治疗计划。MEDAGENTSBENCH汇集了七个成熟的医学数据集,旨在解决现有评估中的三个关键局限性:简单问题的普遍存在、研究之间采样和评估协议的不一致,以及缺乏对性能、成本和推理时间之间相互作用的系统性分析。该基准测试展示了最新思维模型DEEPSEEK R1和OPENAI O3在复杂医疗推理任务中的卓越性能,并表明基于搜索的代理方法在性能-成本比方面具有优势。
当前挑战
MEDAGENTSBENCH面临的挑战包括:1) 所解决的领域问题,即复杂医疗场景中的推理和决策制定,这些场景需要深层次的领域专业知识和多步骤推理;2) 构建过程中遇到的挑战,包括确保问题难度、多样性和推理深度,以及避免数据污染,以确保评估的有效性和可靠性。
常用场景
经典使用场景
在医学领域,MEDAGENTSBENCH 数据集主要用于评估大型语言模型(LLMs)在复杂医疗推理任务中的表现,例如多步骤临床推理、诊断制定和治疗规划。该数据集的设计旨在解决现有评估中的三个关键局限性:普遍存在简单问题、不一致的采样和评估协议以及缺乏对性能、成本和推理时间之间相互作用的系统性分析。
解决学术问题
MEDAGENTSBENCH 数据集通过引入更具挑战性的问题,解决了当前模型在标准测试中表现良好,但在复杂医疗场景中仍面临困难的问题。该数据集通过引入更具挑战性的问题,解决了当前模型在标准测试中表现良好,但在复杂医疗场景中仍面临困难的问题。通过实验,该数据集展示了最新思维模型(如 DEEPSEEK R1 和 OPENAI O3)在复杂医疗推理任务中的卓越表现,以及高级搜索式代理方法相对于传统方法的优势。
实际应用
MEDAGENTSBENCH 数据集在实际应用中,可以帮助研究人员和开发者评估和改进他们在医疗领域的自然语言处理任务中的模型。该数据集可以帮助研究人员和开发者评估和改进他们在医疗领域的自然语言处理任务中的模型。通过对不同模型和方法的分析,该数据集可以为医疗推理任务提供最佳模型选择,同时考虑计算成本和推理时间。
数据集最近研究
最新研究方向
在医学领域,大型语言模型(LLMs)在处理复杂问题方面展现出惊人的能力,但在实际应用中,它们仍面临挑战。MEDAGENTSBENCH数据集旨在评估LLMs在复杂医学推理任务中的表现,如多步骤的临床推理、诊断制定和治疗计划。该数据集解决了现有评估的三个关键限制:简单问题的普遍存在、抽样和评估协议的不一致性以及缺乏对性能、成本和推理时间之间相互作用的分析。研究结果表明,最新的思维模型,如DEEPSEEK R1和OPENAI O3,在复杂医学推理任务中表现出色。此外,高级搜索型代理方法与传统方法相比,提供了更具成本效益的性能。MEDAGENTSBENCH为评估和比较高级LLMs和代理框架在医学推理任务中的能力提供了一个全面的基准。
相关研究论文
  • 1
    MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning耶鲁大学,斯坦福大学,UT Southwestern医学中心 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录