five

MedAgentsBench

收藏
github2025-03-12 更新2025-03-12 收录
下载链接:
https://github.com/gersteinlab/medagents-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
MedAgentsBench是一个包含多个医学问答数据集的基准测试,这些数据集包括MedQA、PubMedQA、MedMCQA、AfriMedQA、MMLU(医学子集)、MMLU-Pro(健康子集)、MedBullets、MedXpertQA-R、MedXpertQA-U和MedExQA。这些数据集经过预处理,标准化为包含问题文本、答案选项和正确答案的格式。

MedAgentsBench is a benchmark test encompassing multiple medical question-answering datasets. These datasets include MedQA, PubMedQA, MedMCQA, AfriMedQA, the medical subset of MMLU, the health subset of MMLU-Pro, MedBullets, MedXpertQA-R, MedXpertQA-U, and MedExQA. All these datasets have been preprocessed and standardized into a format consisting of question text, answer options, and the correct answer.
创建时间:
2025-02-11
原始信息汇总

MedAgents-Benchmark 数据集概述

数据集简介

MedAgents-Benchmark 是一个用于评估医疗问答代理的性能的基准测试。

安装

  • 使用 requirements.txt 文件安装依赖。
  • 将所有环境变量放在 .env 文件中。

实验运行

  • 运行基线实验,需要导航到以下目录并执行脚本:
    • baselines/MDAgents/
    • baselines/MedAgents/
    • baselines/MedPrompt/
  • 使用 ./run_experiments_all.sh 执行实验脚本。
  • 使用 misc.ipynb 分析结果和计算误差/成功指标。

数据集统计

  • 着重于具有挑战性的医疗问题,选择模型准确率低于50%的问题。
  • 硬性问题分布:
    任务 硬性问题数量
    medqa 100
    pubmedqa 100
    medmcqa 100
    medbullets 89
    mmlu 73
    mmlu-pro 100
    afrimedqa 32

所有代理评估均在此测试困难子集上进行。

原始数据集

该基准包含以下预处理为标准化格式的医疗问答数据集:

MedQA

  • 多选题,来自医学执照考试。
  • 包含训练和测试集。
  • 4个答案选项(A-D)。
  • 采样50个问题用于评估。

PubMedQA

  • 基于PubMed摘要的问题。
  • 3个答案选项(是/否/可能)。
  • 问题结合了摘要中的上下文和原始问题。
  • 采样50个问题用于评估。

MedMCQA

  • 单选题,从多选题中筛选。
  • 使用开发集作为测试集。
  • 4个答案选项(A-D)。
  • 采样50个问题用于评估。

AfriMedQA

  • 多选题。
  • 选项数量不等(A-J)。
  • 仅保留单答案选择题。
  • 采样50个问题用于评估。

MMLU (Medical Subset)

  • 仅包含医学/生物学领域的子集:
    • 临床知识
    • 专业医学
    • 大学生医学
    • 医学遗传学
    • 解剖学
    • 大学生生物学
  • 4个答案选项(A-D)。
  • 采样50个问题用于评估。

MMLU-Pro (Health Subset)

  • 过滤为健康类别的专业级别问题。
  • 包含临床知识、医学、营养、解剖等领域。
  • 选项数量不等(最常见:10个选项)。
  • 采样50个问题用于评估。

MedBullets

  • 按难度等级分类(简单/好/难/差)。
  • 包含详细解释。
  • 多选题格式。
  • 从困难集中采样50个问题用于评估。

所有数据集已标准化为以下格式:

  • 问题文本 question
  • 答案选项 options
  • 正确答案 answer_idx
  • 唯一ID realidx

例如: json { "question": "You are called to assess a term newborn... What is the most likely diagnosis?", "options": { "A": "Oesophageal atresia no fistula", "B": "Iatrogenic oesophageal perforation", "C": "Oesophageal stenosis", "D": "Common type oesophageal atresia with mucus plugging of the distal tracheoesophageal fistula", "E": "N/A" }, "answer_idx": "A", "realidx": "0fd14a5dcafa4c3054ea03245a10aa1262fb88bf4906cfcec09f73bee06b163c" }

搜集汇总
数据集介绍
main_image_url
构建方式
MedAgents-Benchmark数据集的构建,针对医学问答领域的特定需求,选取了多个来源的医学问题,包括医学执照考试、PubMed摘要、医学多选题等。这些数据集经过预处理,统一格式为包含问题文本、答案选项、正确答案索引和唯一标识的结构,旨在为医学问答智能体提供统一的评价基准。数据集的构建过程遵循标准化原则,确保了不同来源的数据能够进行有效整合与比较。
特点
该数据集的特点在于聚焦于医学领域中的难题,特别挑选了模型准确率低于50%的问题作为测试集,以此来提高评价的挑战性和实效性。包含的问题类型多样,涵盖了从基础医学知识到专业临床知识的多个领域,且每个数据集都提供了训练和测试的拆分,以及详细的答案解析,为医学问答系统的研究与评估提供了全面的资源。
使用方法
使用MedAgents-Benchmark数据集,用户需要先安装必要的依赖,并通过设置环境变量来配置实验环境。运行实验时,用户可以进入基准目录中的各个子目录执行预定义的脚本,进行基线实验。实验结果的分析和错误/成功指标的计算可通过提供的Jupyter Notebook进行,整个流程简便且高效。
背景与挑战
背景概述
MedAgents-Benchmark数据集是一项针对医疗问答智能体评估的基准测试,其旨在为医学问答领域提供一个统一的评价标准。该数据集由多个预处理的医学问答数据集组成,涵盖了不同类型和难度的问题,旨在对医学问答智能体的性能进行全面的评估。该数据集的创建体现了医学信息处理和自然语言处理领域的结合,由多个研究团队共同研发,其研究成果对于推动医疗问答系统的进步具有重要意义。
当前挑战
在构建MedAgents-Benchmark数据集的过程中,研究者们面临了诸多挑战。首先,如何筛选出具有挑战性的问题,即模型准确率低于50%的问题,是数据集构建的关键。其次,数据集需要整合多个来源的数据,并统一格式,这要求高标准的预处理和标准化工作。此外,数据集在评估医学问答智能体时,需解决如何平衡不同任务难度、不同类型问题间的分布,以及如何准确计算错误/成功度量的挑战。
常用场景
经典使用场景
MedAgents-Benchmark作为医学问答智能体的评估基准,其经典使用场景在于为医学问答系统提供一组具有挑战性的问题,以测试和评价系统的性能。这些问题专门挑选自模型准确率低于50%的问题,从而确保了数据集在评估中的高难度和区分度。
实际应用
在实践应用方面,MedAgents-Benchmark的数据集可以为医疗健康领域的智能问答系统提供培训和测试平台,帮助提升这些系统在面对复杂临床问题的响应能力和准确性。
衍生相关工作
基于MedAgents-Benchmark,研究者们已经衍生出多项相关工作,包括对现有医学问答系统的性能分析、新算法的开发与验证,以及医学知识图谱的构建与应用等,进一步拓展了医学自然语言处理的研究边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作