MedQA-CS
收藏arXiv2024-10-02 更新2024-10-04 收录
下载链接:
https://github.com/bio-nlp/MedQA-CS, https://huggingface.co/datasets/bio-nlp-umass/MedQA-CS-Student, https://huggingface.co/datasets/bio-nlp-umass/MedQA-CS-Exam
下载链接
链接失效反馈官方服务:
资源简介:
MedQA-CS数据集是由马萨诸塞大学阿默斯特分校等机构创建的,旨在评估大型语言模型在临床技能方面的表现。该数据集包含1667个数据点,涵盖信息收集、体格检查、诊断和治疗等多个临床场景。数据集的创建过程严格遵循USMLE Step 2 CS指南,并通过专家注释确保数据质量。MedQA-CS主要用于评估和提升AI在医疗领域的临床能力,特别是在复杂临床情境下的表现。
MedQA-CS dataset was developed by the University of Massachusetts Amherst and other institutions, aiming to evaluate the performance of large language models (LLMs) in clinical skills. This dataset comprises 1,667 data points, covering multiple clinical scenarios including information gathering, physical examination, diagnosis, and treatment. Its development strictly adheres to the USMLE Step 2 CS guidelines, and data quality is ensured through expert annotations. MedQA-CS is primarily used to assess and enhance the clinical capabilities of AI in the healthcare field, especially its performance in complex clinical contexts.
提供机构:
马萨诸塞大学阿默斯特分校, 埃默里大学, 明尼苏达大学, 马萨诸塞大学洛厄尔分校, UMass Chan医学院
创建时间:
2024-10-02
搜集汇总
数据集介绍

构建方式
MedQA-CS数据集的构建方式是受医学教育中的客观结构化临床考试(OSCE)启发,通过构建一个AI-SCE框架来评估大型语言模型(LLMs)的临床技能。该框架包括两个指令跟随任务:LLM-as-medical-student和LLM-as-CS-examiner,旨在反映真实临床场景。数据集由公开可用的数据和专家注释组成,以提供一个全面的评估框架,用于评估LLMs在临床技能方面的表现。
特点
MedQA-CS数据集的特点包括:1. 公开可用的数据和专家注释;2. 评估LLMs在“展示如何”层面上的临床技能;3. 提供定量和定性评估LLMs作为可靠评估者的能力;4. 包括指令跟随任务,模拟真实临床场景。
使用方法
MedQA-CS数据集的使用方法包括:1. 作为LLMs临床技能评估的基准;2. 用于开发和改进LLMs的临床能力;3. 评估LLMs作为临床领域评估者的可靠性。
背景与挑战
背景概述
MedQA-CS是一个由Yao等人于2024年提出的AI-SCE框架,旨在通过模拟真实临床场景中的医学生和考官角色,全面评估大型语言模型(LLMs)的临床技能。该数据集的创建基于医疗教育的客观结构化临床考试(OSCEs)理念,旨在填补现有临床LLM基准的不足。MedQA-CS通过两个指令遵循任务——LLM-as-medical-student和LLM-as-CS-examiner——来评估LLMs,以反映现实临床场景。该数据集提供了一个全面的评估框架,包括公开可用的数据和专家注释,以及LLMs作为可靠临床技能评估者的定性和定量评估。
当前挑战
MedQA-CS数据集面临的挑战包括:1)现有临床LLM基准主要关注Miller金字塔的“知道”和“知道如何”层面,忽略了医疗教育中至关重要的实践技能;2)多项选择题(MCQ)格式限制了LLMs进行开放式查询,无法捕捉到现实世界中临床互动所需的细微能力,例如患者信息收集;3)尽管在之前的MCQ基准中,LLMs的得分与专家相当或超过专家,但在MedQA-CS上的得分却显著较低,这突出了基于临床知识的评估和基于实际临床技能的评估之间的差异。此外,将OSCE转换为AI-SCE涉及到创建一个主观但专业的自动评估指标,以取代人类临床技能考官。
常用场景
经典使用场景
MedQA-CS 数据集被设计用来评估大型语言模型(LLMs)的临床技能,特别是在医疗保健领域的应用。它通过模拟真实临床场景,让 LLM 扮演医疗学生和临床技能考官的角色,执行信息收集、体格检查、闭关和诊断等任务,以此来评估 LLM 在医疗场景下的实际操作能力。这种评估方式与传统的多项选择题基准(如 MedQA)相比,更加全面和具有挑战性。
解决学术问题
MedQA-CS 数据集解决了当前临床 LLM 基准测试的不足,如过度关注知识层面而忽视实际操作技能,以及无法捕捉到真实医疗场景中的细微能力。它通过引入 AI-结构化临床考试(AI-SCE)框架,更全面地评估了 LLM 的临床能力,从而推动了医疗保健领域人工智能应用的进步。
衍生相关工作
MedQA-CS 数据集的提出和评估框架的设计,为后续相关研究提供了重要的参考和启示。例如,可以进一步研究如何利用 LLM 作为评估指标,对医疗人工智能模型进行更准确和客观的评估;同时,也可以探索如何将 MedQA-CS 的评估框架应用于其他领域,如法律、金融等,以推动人工智能在更多领域的应用和发展。
以上内容由遇见数据集搜集并总结生成



