MedAgentsBench
收藏github2025-03-12 更新2025-03-12 收录
下载链接:
https://github.com/gersteinlab/medagents-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
MedAgentsBench是一个包含多个医学问答数据集的基准测试,这些数据集包括MedQA、PubMedQA、MedMCQA、AfriMedQA、MMLU(医学子集)、MMLU-Pro(健康子集)、MedBullets、MedXpertQA-R、MedXpertQA-U和MedExQA。这些数据集经过预处理,标准化为包含问题文本、答案选项和正确答案的格式。
MedAgentsBench is a benchmark test encompassing multiple medical question-answering datasets. These datasets include MedQA, PubMedQA, MedMCQA, AfriMedQA, the medical subset of MMLU, the health subset of MMLU-Pro, MedBullets, MedXpertQA-R, MedXpertQA-U, and MedExQA. All these datasets have been preprocessed and standardized into a format consisting of question text, answer options, and the correct answer.
创建时间:
2025-02-11
原始信息汇总
MedAgents-Benchmark 数据集概述
数据集简介
MedAgents-Benchmark 是一个用于评估医疗问答代理的性能的基准测试。
安装
- 使用
requirements.txt文件安装依赖。 - 将所有环境变量放在
.env文件中。
实验运行
- 运行基线实验,需要导航到以下目录并执行脚本:
baselines/MDAgents/baselines/MedAgents/baselines/MedPrompt/
- 使用
./run_experiments_all.sh执行实验脚本。 - 使用
misc.ipynb分析结果和计算误差/成功指标。
数据集统计
- 着重于具有挑战性的医疗问题,选择模型准确率低于50%的问题。
- 硬性问题分布:
任务 硬性问题数量 medqa 100 pubmedqa 100 medmcqa 100 medbullets 89 mmlu 73 mmlu-pro 100 afrimedqa 32
所有代理评估均在此测试困难子集上进行。
原始数据集
该基准包含以下预处理为标准化格式的医疗问答数据集:
MedQA
- 多选题,来自医学执照考试。
- 包含训练和测试集。
- 4个答案选项(A-D)。
- 采样50个问题用于评估。
PubMedQA
- 基于PubMed摘要的问题。
- 3个答案选项(是/否/可能)。
- 问题结合了摘要中的上下文和原始问题。
- 采样50个问题用于评估。
MedMCQA
- 单选题,从多选题中筛选。
- 使用开发集作为测试集。
- 4个答案选项(A-D)。
- 采样50个问题用于评估。
AfriMedQA
- 多选题。
- 选项数量不等(A-J)。
- 仅保留单答案选择题。
- 采样50个问题用于评估。
MMLU (Medical Subset)
- 仅包含医学/生物学领域的子集:
- 临床知识
- 专业医学
- 大学生医学
- 医学遗传学
- 解剖学
- 大学生生物学
- 4个答案选项(A-D)。
- 采样50个问题用于评估。
MMLU-Pro (Health Subset)
- 过滤为健康类别的专业级别问题。
- 包含临床知识、医学、营养、解剖等领域。
- 选项数量不等(最常见:10个选项)。
- 采样50个问题用于评估。
MedBullets
- 按难度等级分类(简单/好/难/差)。
- 包含详细解释。
- 多选题格式。
- 从困难集中采样50个问题用于评估。
所有数据集已标准化为以下格式:
- 问题文本
question - 答案选项
options - 正确答案
answer_idx - 唯一ID
realidx
例如: json { "question": "You are called to assess a term newborn... What is the most likely diagnosis?", "options": { "A": "Oesophageal atresia no fistula", "B": "Iatrogenic oesophageal perforation", "C": "Oesophageal stenosis", "D": "Common type oesophageal atresia with mucus plugging of the distal tracheoesophageal fistula", "E": "N/A" }, "answer_idx": "A", "realidx": "0fd14a5dcafa4c3054ea03245a10aa1262fb88bf4906cfcec09f73bee06b163c" }
搜集汇总
数据集介绍

构建方式
MedAgents-Benchmark数据集的构建,针对医学问答领域的特定需求,选取了多个来源的医学问题,包括医学执照考试、PubMed摘要、医学多选题等。这些数据集经过预处理,统一格式为包含问题文本、答案选项、正确答案索引和唯一标识的结构,旨在为医学问答智能体提供统一的评价基准。数据集的构建过程遵循标准化原则,确保了不同来源的数据能够进行有效整合与比较。
特点
该数据集的特点在于聚焦于医学领域中的难题,特别挑选了模型准确率低于50%的问题作为测试集,以此来提高评价的挑战性和实效性。包含的问题类型多样,涵盖了从基础医学知识到专业临床知识的多个领域,且每个数据集都提供了训练和测试的拆分,以及详细的答案解析,为医学问答系统的研究与评估提供了全面的资源。
使用方法
使用MedAgents-Benchmark数据集,用户需要先安装必要的依赖,并通过设置环境变量来配置实验环境。运行实验时,用户可以进入基准目录中的各个子目录执行预定义的脚本,进行基线实验。实验结果的分析和错误/成功指标的计算可通过提供的Jupyter Notebook进行,整个流程简便且高效。
背景与挑战
背景概述
MedAgents-Benchmark数据集是一项针对医疗问答智能体评估的基准测试,其旨在为医学问答领域提供一个统一的评价标准。该数据集由多个预处理的医学问答数据集组成,涵盖了不同类型和难度的问题,旨在对医学问答智能体的性能进行全面的评估。该数据集的创建体现了医学信息处理和自然语言处理领域的结合,由多个研究团队共同研发,其研究成果对于推动医疗问答系统的进步具有重要意义。
当前挑战
在构建MedAgents-Benchmark数据集的过程中,研究者们面临了诸多挑战。首先,如何筛选出具有挑战性的问题,即模型准确率低于50%的问题,是数据集构建的关键。其次,数据集需要整合多个来源的数据,并统一格式,这要求高标准的预处理和标准化工作。此外,数据集在评估医学问答智能体时,需解决如何平衡不同任务难度、不同类型问题间的分布,以及如何准确计算错误/成功度量的挑战。
常用场景
经典使用场景
MedAgents-Benchmark作为医学问答智能体的评估基准,其经典使用场景在于为医学问答系统提供一组具有挑战性的问题,以测试和评价系统的性能。这些问题专门挑选自模型准确率低于50%的问题,从而确保了数据集在评估中的高难度和区分度。
实际应用
在实践应用方面,MedAgents-Benchmark的数据集可以为医疗健康领域的智能问答系统提供培训和测试平台,帮助提升这些系统在面对复杂临床问题的响应能力和准确性。
衍生相关工作
基于MedAgents-Benchmark,研究者们已经衍生出多项相关工作,包括对现有医学问答系统的性能分析、新算法的开发与验证,以及医学知识图谱的构建与应用等,进一步拓展了医学自然语言处理的研究边界。
以上内容由遇见数据集搜集并总结生成



