MedLingo
收藏arXiv2025-05-21 更新2025-05-24 收录
下载链接:
https://github.com/Flora-jia-jfr/diagnosing_our_datasets
下载链接
链接失效反馈官方服务:
资源简介:
MedLingo数据集由100个临床术语及其对应扩展组成,用于评估语言模型对临床术语的理解能力。该数据集通过从MIMIC-IV数据库中提取的3,317份出院记录,利用正则表达式识别出具有缩写特征的词汇,并根据这些词汇在MIMIC-IV数据库中的上下文生成相应的扩展。MedLingo数据集旨在为语言模型提供一个真实世界临床文本的评估框架,并分析模型性能与训练语料库中临床术语出现频率的关系。
The MedLingo dataset comprises 100 clinical terms and their respective expanded forms, designed to assess language models' comprehension of clinical terminology. This dataset is developed by extracting 3,317 discharge records from the MIMIC-IV database, identifying abbreviation-prone terms via regular expressions, and generating their corresponding expanded forms based on their contextual occurrences within the MIMIC-IV database. The MedLingo dataset aims to provide an evaluation framework for language models using real-world clinical text, and to analyze the correlation between model performance and the occurrence frequency of clinical terms in the training corpus.
提供机构:
杜克大学, 美国
创建时间:
2025-05-21
搜集汇总
数据集介绍

构建方式
MedLingo数据集的构建基于从MIMIC-IV电子健康记录中提取的临床术语,通过正则表达式筛选出符合特定模式的缩写词汇,并经过人工验证生成对应的扩展解释。研究团队从3,317份出院记录中采样,利用自然语言处理工具进行词形还原和常见词过滤,最终精选100个具有不同频率特征的临床术语对。每个术语对均通过上下文验证扩展准确性,并设计为开放式生成任务,以避免上下文泄露答案。数据集构建过程强调临床术语的真实性和任务隔离性,确保评估模型对实际临床文本的理解能力。
特点
MedLingo数据集的核心特点在于其专注于临床术语的孤立评估,消除了传统临床文本理解任务中可能存在的上下文暗示。数据集包含100个精选的临床术语对,覆盖从高频(如“NAD”出现1887次)到低频(如“POBHx”仅出现6次)的连续分布,真实反映临床记录中的术语使用不平衡现象。术语来源严格限定于ICU场景的出院记录,确保数据临床相关性。此外,数据集采用开放式生成任务设计,支持对模型临床语义理解能力的细粒度评估,并与预训练语料库中的术语出现频率形成对照分析。
使用方法
使用MedLingo评估语言模型时,需采用单样本提示策略(one-shot demonstration)确保任务理解一致性。模型需根据给定临床片段和术语,自回归生成完整扩展解释。评估采用LLM-as-judge机制,允许语义等效的多样化回答(如接受“基础代谢检查”和“基础代谢面板”为同义)。对于争议性回答,需通过多模型投票(GPT-4o、Claude-3等)结合人工裁决。该数据集特别适合分析预训练语料中临床术语频率与模型表现的相关性,建议配合WIMBD工具量化术语在RedPajama、Dolma等语料中的出现频次,建立频率-准确率关联曲线。
背景与挑战
背景概述
MedLingo数据集由杜克大学和MIT CSAIL的研究团队于2025年创建,旨在评估大型语言模型(LLMs)对临床术语的理解能力。该数据集聚焦于电子健康记录(EHR)中常见的临床术语缩写及其扩展形式,填补了现有医学自然语言处理(NLP)任务中临床术语理解的空白。MedLingo的构建基于MIMIC-IV临床笔记,通过严格的筛选和标注流程,确保了数据的高质量和临床相关性。该数据集的发布为研究LLMs在真实临床场景中的语言理解能力提供了重要基准,推动了医学NLP领域的发展。
当前挑战
MedLingo数据集面临的主要挑战包括:1) 领域问题挑战:临床术语缩写具有多义性和领域特异性,模型需准确区分不同上下文中的术语含义,如“CA”可能指“癌症”或“加利福尼亚”。2) 构建过程挑战:数据标注需要专业医学知识以确保准确性;临床术语在预训练语料中分布不均,高频术语与真实临床使用频率不匹配;此外,数据中可能存在低质量或重复文档,影响模型性能评估。这些挑战要求数据集构建过程中需进行精细的术语筛选、上下文平衡和噪声过滤。
常用场景
经典使用场景
MedLingo数据集在临床自然语言处理(NLP)研究中被广泛用于评估大型语言模型(LLMs)对临床术语的理解能力。该数据集通过提供真实的临床笔记片段,要求模型解释其中的医学术语和缩写,从而测试模型在真实医疗环境中的语言理解能力。这一场景特别适用于研究模型在未经电子健康记录(EHR)数据直接训练的情况下,如何从大规模预训练语料库中学习临床信息。
实际应用
在实际应用中,MedLingo数据集被用于开发和优化临床NLP系统,如电子健康记录(EHR)的信息提取、临床笔记的自动摘要和医疗问答系统。通过评估模型对临床术语的理解能力,该数据集帮助确保这些系统在实际医疗环境中的可靠性和准确性。此外,MedLingo还被用于检测和减少模型在生成医疗信息时的错误和误导性内容,从而提高患者安全性。
衍生相关工作
MedLingo数据集衍生了一系列相关研究,包括对预训练语料库中临床信息来源的分析、模型对不支持医疗声明的生成行为研究,以及针对临床术语理解的模型优化方法。例如,基于MedLingo的研究揭示了模型在生成医疗信息时可能传播的不准确内容,从而推动了针对医疗领域的数据过滤和模型安全措施的开发。此外,该数据集还激发了更多针对临床语言理解的基准测试和评估框架的研究。
以上内容由遇见数据集搜集并总结生成



