CliniQ
收藏arXiv2025-02-10 更新2025-02-26 收录
下载链接:
http://arxiv.org/abs/2502.06252v1
下载链接
链接失效反馈官方服务:
资源简介:
ClنيQ数据集是由清华大学等机构创建的,旨在评估电子健康记录中的实体检索性能。该数据集利用MIMIC-III数据集中的出院摘要作为电子健康记录语料库,并以ICD疾病代码、手术代码和处方标签作为查询。数据集包含1000份患者笔记,被划分为16550个片段,收集了1246个独特的查询和77206个详细的相关性判断,是先前数据集规模的十倍以上。该数据集可用于单患者检索和多患者检索两种设置,以应对不同的应用场景,如患者图表审查和患者队列选择等。
提供机构:
清华大学
创建时间:
2025-02-10
搜集汇总
数据集介绍

构建方式
CliniQ数据集的构建旨在填补电子健康记录(EHR)实体检索领域缺乏公共基准的空白。该数据集以MIMIC-III数据集中的出院总结为基础,将ICD代码和处方标签作为查询,并利用GPT-4进行相关性判断。数据集共包含1000份患者笔记,生成了1246个查询,并提供了超过77000个相关性标注。为了首次评估语义差距,引入了一种新的相关性匹配分类系统,将每个相关对分为五类:字符串、同义词、缩写、下位词和隐含意义。
特点
CliniQ数据集的特点在于其大规模的查询和高质量标注,同时支持单患者和多患者两种检索设置,代表不同的应用场景,并提供了分类标签以进行语义匹配评估。数据集利用了MIMIC-III中的出院总结,并结合ICD-9疾病代码、ICD-9程序代码和处方标签作为查询。通过GPT-4的精确匹配和语义匹配,数据集提供了超过77,000个相关性标注,其中包含字符串匹配、同义词匹配、缩写匹配、下位词匹配和隐含意义匹配。这些标注使得CliniQ成为评估EHR检索系统性能的宝贵资源。
使用方法
使用CliniQ数据集时,首先需要了解其两种检索设置:单患者检索和多患者检索。在单患者检索中,模型需要在一份患者笔记中找到与查询相关的部分,而多患者检索则需要从整个数据集中检索相关患者。数据集提供了详细的语义匹配评估,允许研究人员分析模型在不同匹配类型上的性能。为了评估模型,数据集提供了包括BM25、基于知识图谱的查询扩展和最先进的密集检索器在内的多种检索方法。用户可以根据需要选择合适的模型进行评估,并利用MRR、NDCG、MAP等指标来衡量模型的性能。此外,CliniQ还允许根据不同的匹配类型(字符串、同义词、缩写、下位词和隐含意义)进行细粒度的性能分析。
背景与挑战
背景概述
电子病历(EHR)的实体检索在临床实践中扮演着至关重要的角色,它被广泛应用于各种临床实践中,如辅助医生进行临床决策和研究者寻找特定患者。然而,由于缺乏公开的基准数据集,实体检索在EHR中的应用评价一直是一个难题。为了解决这个问题,Zhengyun Zhao等人于2018年提出了CliniQ数据集,旨在为EHR实体检索提供一个公开的基准。CliniQ数据集基于MIMIC-III数据集中的出院摘要,并纳入了与之相关的ICD代码和处方标签作为查询,使用GPT-4进行相关性标注。该数据集共包含1000份患者笔记,生成了1246个查询,并提供了超过77000个相关性标注。CliniQ数据集的发布填补了EHR检索领域公开基准数据集的空白,为研究人员提供了一个重要的评价工具,推动了EHR检索技术的发展。
当前挑战
CliniQ数据集的构建过程中面临的主要挑战包括:1) 查询的构建和标注过程依赖于专家,限制了数据集的规模;2) 现有的评估通常只关注一个特定的下游应用,缺乏反映现实世界场景的通用性;3) 语义差距问题一直是EHR检索领域的主要挑战,包括词汇不匹配、粒度不匹配和含义不匹配等。为了解决这些挑战,CliniQ数据集采用了大规模查询、高质量的标注、两种检索设置(单患者检索和多患者检索)以及分类标签来评估语义匹配。此外,CliniQ数据集还通过使用GPT-4进行自动标注,提高了标注的效率和规模。然而,CliniQ数据集也暴露出一些问题,如实体检索在药物检索方面的表现不佳,以及语义匹配能力在不同匹配类型上的差异。这些挑战为未来的EHR检索研究提供了重要的研究方向。
常用场景
经典使用场景
电子病历(EHR)中的实体检索在临床实践中发挥着至关重要的作用,它被应用于包括医疗决策支持、患者信息查询、患者队列选择和疾病流行预测等多个领域。CliniQ数据集提供了一个评估实体检索性能的基准,特别是在语义差距问题上。该数据集利用MIMIC-III数据集中的出院总结,将ICD代码和处方标签作为查询,并通过GPT-4进行相关性判断的标注。这一数据集的构建和发布,为研究实体检索在EHR中的应用提供了宝贵的资源和评估标准。
衍生相关工作
CliniQ数据集的发布,衍生了一系列相关的经典工作。例如,基于CliniQ数据集的研究揭示了不同检索模型在语义匹配方面的优势和不足,为后续研究提供了有价值的参考。此外,CliniQ数据集的构建过程也为其他类似的数据集构建提供了范例,推动了EHR检索领域的发展。未来,随着CliniQ数据集的不断完善和扩展,预计将会有更多基于该数据集的研究成果出现,为EHR检索领域的发展做出更大的贡献。
数据集最近研究
最新研究方向
电子病历(EHR)实体检索在医疗实践中扮演着至关重要的角色,但其性能评估一直缺乏公开的基准数据集。CliniQ 数据集的提出填补了这一空白,旨在评估 EHR 实体检索中的语义差距问题。该数据集利用 MIMIC-III 数据集的出院摘要,将 ICD 码和处方标签作为查询,并使用 GPT-4 进行相关性标注。CliniQ 数据集提供了大规模的查询和高质量标注,支持单患者和多患者检索两种设置,并针对语义匹配进行了分类标签。基于 CliniQ 数据集,研究人员评估了多种检索方法的性能,包括 BM25、查询扩展和最先进的密集检索器。研究结果表明,BM25 提供了强大的基线,但在语义匹配方面表现不佳。查询扩展显著提高了性能,但略微降低了字符串匹配能力。密集检索器在语义匹配方面优于传统方法,并且通用领域的密集检索器通常优于专门在生物医学领域训练的检索器。这一研究为 EHR 实体检索提供了宝贵的资源,并指出了未来的研究方向,包括针对 EHR 检索任务的定制研究、提高字符串匹配能力、利用大型语言模型的知识和推理能力,以及结合词汇和语义匹配的有效方法。
相关研究论文
- 1Evaluating Entity Retrieval in Electronic Health Records: a Semantic Gap Perspective清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成



