MedAgentsBench

github2025-03-12 更新2025-03-12 收录

下载链接：

https://github.com/gersteinlab/medagents-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

MedAgentsBench是一个包含多个医学问答数据集的基准测试，这些数据集包括MedQA、PubMedQA、MedMCQA、AfriMedQA、MMLU（医学子集）、MMLU-Pro（健康子集）、MedBullets、MedXpertQA-R、MedXpertQA-U和MedExQA。这些数据集经过预处理，标准化为包含问题文本、答案选项和正确答案的格式。

MedAgentsBench is a benchmark test encompassing multiple medical question-answering datasets. These datasets include MedQA, PubMedQA, MedMCQA, AfriMedQA, the medical subset of MMLU, the health subset of MMLU-Pro, MedBullets, MedXpertQA-R, MedXpertQA-U, and MedExQA. All these datasets have been preprocessed and standardized into a format consisting of question text, answer options, and the correct answer.

创建时间：

2025-02-11

原始信息汇总

MedAgents-Benchmark 数据集概述

数据集简介

MedAgents-Benchmark 是一个用于评估医疗问答代理的性能的基准测试。

安装

使用 requirements.txt 文件安装依赖。
将所有环境变量放在 .env 文件中。

实验运行

运行基线实验，需要导航到以下目录并执行脚本：
- baselines/MDAgents/
- baselines/MedAgents/
- baselines/MedPrompt/
使用 ./run_experiments_all.sh 执行实验脚本。
使用 misc.ipynb 分析结果和计算误差/成功指标。

数据集统计

着重于具有挑战性的医疗问题，选择模型准确率低于50%的问题。
硬性问题分布：

任务硬性问题数量

medqa 100

pubmedqa 100

medmcqa 100

medbullets 89

mmlu 73

mmlu-pro 100

afrimedqa 32

所有代理评估均在此测试困难子集上进行。

原始数据集

该基准包含以下预处理为标准化格式的医疗问答数据集：

MedQA

多选题，来自医学执照考试。
包含训练和测试集。
4个答案选项（A-D）。
采样50个问题用于评估。

PubMedQA

基于PubMed摘要的问题。
3个答案选项（是/否/可能）。
问题结合了摘要中的上下文和原始问题。
采样50个问题用于评估。

MedMCQA

单选题，从多选题中筛选。
使用开发集作为测试集。
4个答案选项（A-D）。
采样50个问题用于评估。

AfriMedQA

多选题。
选项数量不等（A-J）。
仅保留单答案选择题。
采样50个问题用于评估。

MMLU (Medical Subset)

仅包含医学/生物学领域的子集：
- 临床知识
- 专业医学
- 大学生医学
- 医学遗传学
- 解剖学
- 大学生生物学
4个答案选项（A-D）。
采样50个问题用于评估。

MMLU-Pro (Health Subset)

过滤为健康类别的专业级别问题。
包含临床知识、医学、营养、解剖等领域。
选项数量不等（最常见：10个选项）。
采样50个问题用于评估。

MedBullets

按难度等级分类（简单/好/难/差）。
包含详细解释。
多选题格式。
从困难集中采样50个问题用于评估。

所有数据集已标准化为以下格式：

问题文本 question
答案选项 options
正确答案 answer_idx
唯一ID realidx

例如： json { "question": "You are called to assess a term newborn... What is the most likely diagnosis?", "options": { "A": "Oesophageal atresia no fistula", "B": "Iatrogenic oesophageal perforation", "C": "Oesophageal stenosis", "D": "Common type oesophageal atresia with mucus plugging of the distal tracheoesophageal fistula", "E": "N/A" }, "answer_idx": "A", "realidx": "0fd14a5dcafa4c3054ea03245a10aa1262fb88bf4906cfcec09f73bee06b163c" }

搜集汇总

数据集介绍

构建方式

MedAgents-Benchmark数据集的构建，针对医学问答领域的特定需求，选取了多个来源的医学问题，包括医学执照考试、PubMed摘要、医学多选题等。这些数据集经过预处理，统一格式为包含问题文本、答案选项、正确答案索引和唯一标识的结构，旨在为医学问答智能体提供统一的评价基准。数据集的构建过程遵循标准化原则，确保了不同来源的数据能够进行有效整合与比较。

特点

该数据集的特点在于聚焦于医学领域中的难题，特别挑选了模型准确率低于50%的问题作为测试集，以此来提高评价的挑战性和实效性。包含的问题类型多样，涵盖了从基础医学知识到专业临床知识的多个领域，且每个数据集都提供了训练和测试的拆分，以及详细的答案解析，为医学问答系统的研究与评估提供了全面的资源。

使用方法

使用MedAgents-Benchmark数据集，用户需要先安装必要的依赖，并通过设置环境变量来配置实验环境。运行实验时，用户可以进入基准目录中的各个子目录执行预定义的脚本，进行基线实验。实验结果的分析和错误/成功指标的计算可通过提供的Jupyter Notebook进行，整个流程简便且高效。

背景与挑战

背景概述

MedAgents-Benchmark数据集是一项针对医疗问答智能体评估的基准测试，其旨在为医学问答领域提供一个统一的评价标准。该数据集由多个预处理的医学问答数据集组成，涵盖了不同类型和难度的问题，旨在对医学问答智能体的性能进行全面的评估。该数据集的创建体现了医学信息处理和自然语言处理领域的结合，由多个研究团队共同研发，其研究成果对于推动医疗问答系统的进步具有重要意义。

当前挑战

在构建MedAgents-Benchmark数据集的过程中，研究者们面临了诸多挑战。首先，如何筛选出具有挑战性的问题，即模型准确率低于50%的问题，是数据集构建的关键。其次，数据集需要整合多个来源的数据，并统一格式，这要求高标准的预处理和标准化工作。此外，数据集在评估医学问答智能体时，需解决如何平衡不同任务难度、不同类型问题间的分布，以及如何准确计算错误/成功度量的挑战。

常用场景

经典使用场景

MedAgents-Benchmark作为医学问答智能体的评估基准，其经典使用场景在于为医学问答系统提供一组具有挑战性的问题，以测试和评价系统的性能。这些问题专门挑选自模型准确率低于50%的问题，从而确保了数据集在评估中的高难度和区分度。

实际应用

在实践应用方面，MedAgents-Benchmark的数据集可以为医疗健康领域的智能问答系统提供培训和测试平台，帮助提升这些系统在面对复杂临床问题的响应能力和准确性。

衍生相关工作

基于MedAgents-Benchmark，研究者们已经衍生出多项相关工作，包括对现有医学问答系统的性能分析、新算法的开发与验证，以及医学知识图谱的构建与应用等，进一步拓展了医学自然语言处理的研究边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

任务	硬性问题数量
medqa	100
pubmedqa	100
medmcqa	100
medbullets	89
mmlu	73
mmlu-pro	100
afrimedqa	32