JAMA Clinical Challenge, Medbullets
收藏arXiv2024-03-14 更新2024-06-21 收录
下载链接:
https://github.com/HanjieChen/ChallengeClinicalQA
下载链接
链接失效反馈官方服务:
资源简介:
JAMA Clinical Challenge和Medbullets是两个专为评估大型语言模型在解答和解释复杂医疗问题能力而设计的数据集。JAMA Clinical Challenge由1524个基于真实临床案例的挑战性问题组成,每个问题都配有详细的案例描述和专家解释。Medbullets则包含308个模拟USMLE Step 2&3考试风格的问题,同样每个问题都附有解释。这两个数据集的特点是都包含了高质量的专家解释,这是之前基准测试所缺乏的。数据集的应用领域主要是医疗问答系统,旨在帮助医生做出复杂的医疗决策,并通过提供详细的解释来支持决策过程。
JAMA Clinical Challenge and Medbullets are two datasets specifically designed to evaluate the performance of large language models (LLMs) in answering and explaining complex medical questions. JAMA Clinical Challenge consists of 1,524 challenging questions grounded in real clinical cases, each paired with detailed case descriptions and expert explanations. Medbullets, on the other hand, contains 308 questions modeled after the USMLE Step 2 & 3 exam format, with each question accompanied by corresponding explanations. A core shared feature of both datasets is their provision of high-quality expert explanations, a resource that was missing in previous benchmark datasets. These datasets are primarily applied in the field of medical question answering systems, aiming to assist physicians in making complex medical decisions and support their decision-making processes by offering detailed explanatory materials.
提供机构:
约翰斯·霍普金斯大学
创建时间:
2024-02-28
搜集汇总
数据集介绍

构建方式
JAMA Clinical Challenge and Medbullets 数据集的构建方式体现了对现实临床案例复杂性的深刻理解。JAMA Clinical Challenge 数据集从 JAMA Network Clinical Challenge 档案中收集了 1524 个临床案例,每个案例都包含详细的病例描述、问题、四个答案选项以及专家撰写的讨论(解释)。这些案例涵盖了 13 个不同的医学领域,例如眼科、皮肤科、普通医学等。Medbullets 数据集则包含 308 个 USMLE Step 2/3 风格的问题,这些问题的难度与 Step 2/3 考试相当,但更短、可能更具挑战性。每个问题都配有一个病例描述、五个答案选项以及一个解释,解释了正确和错误答案的原因。
特点
JAMA Clinical Challenge and Medbullets 数据集的主要特点在于其包含高质量的解释。与之前的基准数据集不同,这两个数据集都包含了专家撰写的解释,这些解释不仅解释了正确答案的原因,还解释了错误答案的原因。此外,这些数据集的问题都是基于真实的临床案例或最新的 USMLE Step 2/3 风格的问题,因此更具挑战性和现实性。
使用方法
JAMA Clinical Challenge and Medbullets 数据集可用于评估大型语言模型 (LLM) 在回答医学问题方面的能力。研究人员可以使用不同的提示策略来评估模型在预测和解释方面的表现。例如,可以使用 X→Y 提示策略来评估模型的预测准确性,使用 X→RY 提示策略来评估模型的推理能力,以及使用 XY∗→R 提示策略来评估模型生成解释的能力。此外,还可以使用自动评估指标和人工评估来评估模型生成的解释的质量。
背景与挑战
背景概述
在医疗领域,大型语言模型(LLM)在回答医学问题方面取得了令人印象深刻的成果,例如在医学执照考试中取得及格分数。然而,医学执照考试问题或一般临床问题并不能完全捕捉到现实临床案例的复杂性。此外,缺乏参考解释意味着我们无法轻松评估模型决策的推理过程,这是支持医生做出复杂医疗决策的关键组成部分。为了解决这些挑战,研究人员构建了两个新的数据集:JAMA Clinical Challenge 和 Medbullets。JAMA Clinical Challenge 包含基于挑战性临床案例的问题,而 Medbullets 则由类似美国医学执照考试 Step 2 & 3 的临床问题组成。这两个数据集都被构建为多项选择题-问答任务,其中每个问题都附有专家撰写的解释。研究人员使用各种提示对四个 LLM 进行了评估,实验结果表明,与以前的基准数据集相比,这两个数据集更具挑战性。
当前挑战
JAMA Clinical Challenge 和 Medbullets 数据集的挑战包括:1) 解决现实临床案例的复杂性;2) 提供高质量的专家解释;3) 评估模型生成的解释的质量;4) 开发新的评估指标以支持可解释医学问答研究。
常用场景
经典使用场景
JAMA Clinical Challenge and Medbullets 数据集被设计用来评估大型语言模型 (LLMs) 在解答和解释具有挑战性的医学问题方面的能力。这些数据集包含了来自现实世界临床案例的问题,并配有专家撰写的解释,旨在模拟真实的临床环境。它们可以用于训练和测试 LLMs 在医学领域的问题解答能力,并评估它们生成解释的质量。这些数据集还可以用于开发新的评估指标,以更好地衡量 LLMs 在可解释医学问答任务中的表现。
解决学术问题
JAMA Clinical Challenge and Medbullets 数据集解决了现有医学问答数据集的两个主要问题:1. 缺乏对真实临床复杂性的捕捉;2. 缺乏对模型决策推理的解释。这些数据集包含了来自真实世界临床案例的问题,并提供了专家撰写的解释,使得 LLMs 能够在更接近真实临床环境的情况下进行训练和测试。此外,这些解释还可以用于评估 LLMs 生成解释的质量,并开发新的评估指标。
衍生相关工作
JAMA Clinical Challenge and Medbullets 数据集的发布促进了可解释医学问答领域的研究。它们被用于评估 LLMs 在解答和解释具有挑战性的医学问题方面的能力,并揭示了 LLMs 在生成解释方面的局限性。这些发现激发了研究人员开发新的评估指标和训练策略,以改进 LLMs 在可解释医学问答任务中的表现。此外,这些数据集还被用于开发新的医学问答系统,旨在辅助医生进行临床决策并提供更准确的诊断和治疗建议。
以上内容由遇见数据集搜集并总结生成



