five

EHRNoteQA

收藏
arXiv2024-02-27 更新2024-06-21 收录
下载链接:
https://github.com/ji-youn-kim/EHRNoteQA
下载链接
链接失效反馈
官方服务:
资源简介:
EHRNoteQA数据集是由韩国科学技术院的研究团队开发,专门用于评估大型语言模型在临床环境中的表现。该数据集包含962个独特的问题,每个问题都与特定患者的电子健康记录(EHR)临床笔记相关联。EHRNoteQA的独特之处在于它是首个采用多选项问答格式的数据集,这种设计有效地评估了在自动评估背景下大型语言模型的可靠性。此外,它要求分析多个临床笔记以回答单一问题,反映了现实世界临床决策的复杂性,其中临床医生需要审查患者历史的广泛记录。通过EHRNoteQA,研究团队对各种大型语言模型进行了全面的评估,显示了其在评估医疗应用中大型语言模型的重要性和促进大型语言模型整合到医疗系统中的关键作用。

The EHRNoteQA dataset was developed by a research team from the Korea Advanced Institute of Science and Technology (KAIST) specifically to evaluate the performance of large language models (LLMs) in clinical settings. This dataset contains 962 unique questions, each linked to the clinical notes of a specific patient’s electronic health record (EHR). What makes EHRNoteQA unique is that it is the first dataset adopting the multiple-choice question answering format, a design that effectively assesses the reliability of LLMs in the context of automated evaluation. Furthermore, it requires analyzing multiple clinical notes to answer a single question, which reflects the complexity of real-world clinical decision-making, where clinicians need to review extensive records of a patient’s medical history. Through EHRNoteQA, the research team conducted comprehensive evaluations of various LLMs, underscoring the importance of evaluating LLMs for medical applications and the critical role of this dataset in facilitating the integration of LLMs into healthcare systems.
提供机构:
韩国科学技术院
创建时间:
2024-02-25
搜集汇总
数据集介绍
main_image_url
构建方式
在临床信息学领域,电子健康记录(EHR)的深度利用正成为评估大型语言模型(LLM)临床推理能力的关键。EHRNoteQA数据集的构建过程体现了严谨的多阶段协作范式。其基础源自公开的MIMIC-IV EHR数据库,研究团队首先依据临床笔记的令牌长度对患者进行分层抽样,以确保数据与主流LLM的上下文处理能力兼容。随后,利用GPT-4生成初步的多选问答对,这一过程特别设计为两步:首先生成基于患者多次入院出院摘要的临床相关问题,继而构建包含一个正确答案和四个干扰项的选择项。为确保数据的临床准确性与真实性,最终由三位医学专家历时两个月对所有生成内容进行了系统性审查与修正,涉及问题修订、答案校正及干扰项优化,最终形成了包含962个独特问答对的高质量数据集。
特点
EHRNoteQA的突出特点在于其设计理念紧密贴合临床实际需求与评估的科学性。作为首个采用多选问答格式的基于EHR的患者特异性基准,它通过提供明确的选项,实现了对LLM性能可靠、可重复的自动化评估,有效克服了自由文本答案评估中的主观性与不一致性。更为重要的是,数据集中绝大多数问题要求模型综合分析同一患者多次入院的临床笔记(出院摘要)才能作答,这精准模拟了真实临床决策中医生需要整合患者历时性医疗信息的复杂场景。该数据集涵盖了治疗、评估、病因、体征等多种临床问题类型,且经过临床专家深度校验,确保了其临床相关性与挑战性,能够有效区分不同LLM在理解冗长、复杂的临床叙事方面的能力差异。
使用方法
EHRNoteQA数据集主要用于评估大型语言模型在临床环境下的问答性能。研究人员在使用时,需将特定患者的全部相关出院摘要、对应的问题以及五个候选答案选项一并输入待评估的LLM。模型需要基于提供的临床文本,输出其选择的答案选项。评估则通过对比模型输出与预设的正确答案,采用自动化评分方式计算准确率。论文中建议使用GPT-4作为评分器来判断模型输出是否与正确答案在语义上匹配,以实现高效、一致的评估。该数据集支持对不同上下文长度处理能力的模型进行评估(分为Level 1和Level 2),并可用于分析模型表现与临床笔记数量、长度之间的关联。通过将模型在该数据集上的表现与临床医生对真实世界问题的评估结果进行相关性分析,可验证其作为临床评估代理基准的有效性。
背景与挑战
背景概述
随着生成式大语言模型在医疗领域的应用潜力日益凸显,临床环境中缺乏专门评估其性能的基准成为关键瓶颈。为此,由KAIST、NAVER数字医疗实验室及多家医疗机构的研究团队于2024年共同创建了EHRNoteQA数据集。该数据集基于公开的MIMIC-IV电子健康记录,由临床专家精心构建了962个与特定患者临床笔记相关的多项选择题。其核心研究问题在于评估大语言模型在复杂、真实的临床决策场景中的推理能力,即要求模型综合分析患者多次入院的多份出院摘要以回答单一问题。EHRNoteQA的推出填补了患者特异性评估基准的空白,其设计显著提升了自动评估的可靠性,并为推动大语言模型安全、有效地整合到医疗健康系统中提供了至关重要的评估工具。
当前挑战
EHRNoteQA致力于解决的领域挑战,在于如何精准评估大语言模型对真实世界临床问题的理解与推理能力。传统医学问答基准多基于通用医学知识或考试题目,难以捕捉个体患者病例的复杂性及临床决策中需综合多份病历信息的实际需求。在构建过程中,研究团队面临多重挑战:首先,从海量、冗长的MIMIC-IV出院摘要中采样并处理数据,需平衡文本长度与模型上下文窗口的限制,通过分类和压缩策略确保数据可用性;其次,利用GPT-4生成兼具临床相关性和挑战性的问题与干扰项后,仍需投入大量临床专家资源进行长达数月的审查与修正,以提升数据质量与临床真实性,此过程涉及数据删除、问题与答案修订以及干扰项优化等多个环节。
常用场景
经典使用场景
在临床自然语言处理领域,EHRNoteQA数据集被广泛应用于评估大型语言模型在电子健康记录分析中的性能。该数据集通过多选问答形式,模拟医生在诊疗过程中基于患者多次入院记录进行综合判断的场景,要求模型跨多个临床文档提取关键信息以回答复杂问题。这种设计不仅考验模型的信息整合能力,还反映了真实医疗决策中需审阅患者完整病史的复杂性,为模型在医疗场景下的可靠性评估提供了标准化测试平台。
解决学术问题
EHRNoteQA有效解决了临床自然语言处理中缺乏患者特异性评估基准的学术难题。传统医学问答数据集多基于通用医学知识或单文档检索,难以衡量模型在真实患者多维数据中的推理能力。该数据集通过构建基于MIMIC-IV出院摘要的多选问答对,首次实现了对模型跨文档临床推理能力的量化评估,其自动评分机制显著提升了评估的客观性与可重复性,为医疗人工智能系统在复杂临床环境中的性能验证提供了关键方法论支撑。
衍生相关工作
EHRNoteQA的发布催生了多个医疗语言模型评估领域的延伸研究。基于其多文档推理框架,后续工作如ClinicalLongBench扩展了超长临床文本的评估维度;MedAgents则借鉴其多选评估机制开发了基于智能体的临床决策仿真平台。同时,该数据集启发了对医疗领域检索增强生成技术的重新审视,促进了如MedRAG等专注于临床文档多跳检索的模型优化。这些衍生研究共同推动了医疗语言模型从知识记忆向临床情境化推理的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作