CliniQ

Name: CliniQ
Creator: 清华大学
Published: 2025-02-10 16:33:47
License: 暂无描述

arXiv2025-02-10 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.06252v1

下载链接

链接失效反馈

官方服务：

资源简介：

ClنيQ数据集是由清华大学等机构创建的，旨在评估电子健康记录中的实体检索性能。该数据集利用MIMIC-III数据集中的出院摘要作为电子健康记录语料库，并以ICD疾病代码、手术代码和处方标签作为查询。数据集包含1000份患者笔记，被划分为16550个片段，收集了1246个独特的查询和77206个详细的相关性判断，是先前数据集规模的十倍以上。该数据集可用于单患者检索和多患者检索两种设置，以应对不同的应用场景，如患者图表审查和患者队列选择等。

The ClنيQ dataset was created by institutions including Tsinghua University to evaluate entity retrieval performance in electronic health records (EHRs). This dataset utilizes discharge summaries from the MIMIC-III dataset as its EHR corpus, with ICD disease codes, surgical procedure codes and prescription labels serving as queries. The dataset contains 1000 patient notes split into 16,550 segments, and includes 1,246 unique queries along with 77,206 detailed relevance judgments, with its scale over ten times that of previous datasets. It supports two retrieval settings: single-patient retrieval and multi-patient retrieval, to accommodate diverse application scenarios such as patient chart review and patient cohort selection.

提供机构：

清华大学

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

CliniQ数据集的构建旨在填补电子健康记录(EHR)实体检索领域缺乏公共基准的空白。该数据集以MIMIC-III数据集中的出院总结为基础，将ICD代码和处方标签作为查询，并利用GPT-4进行相关性判断。数据集共包含1000份患者笔记，生成了1246个查询，并提供了超过77000个相关性标注。为了首次评估语义差距，引入了一种新的相关性匹配分类系统，将每个相关对分为五类：字符串、同义词、缩写、下位词和隐含意义。

特点

CliniQ数据集的特点在于其大规模的查询和高质量标注，同时支持单患者和多患者两种检索设置，代表不同的应用场景，并提供了分类标签以进行语义匹配评估。数据集利用了MIMIC-III中的出院总结，并结合ICD-9疾病代码、ICD-9程序代码和处方标签作为查询。通过GPT-4的精确匹配和语义匹配，数据集提供了超过77,000个相关性标注，其中包含字符串匹配、同义词匹配、缩写匹配、下位词匹配和隐含意义匹配。这些标注使得CliniQ成为评估EHR检索系统性能的宝贵资源。

使用方法

使用CliniQ数据集时，首先需要了解其两种检索设置：单患者检索和多患者检索。在单患者检索中，模型需要在一份患者笔记中找到与查询相关的部分，而多患者检索则需要从整个数据集中检索相关患者。数据集提供了详细的语义匹配评估，允许研究人员分析模型在不同匹配类型上的性能。为了评估模型，数据集提供了包括BM25、基于知识图谱的查询扩展和最先进的密集检索器在内的多种检索方法。用户可以根据需要选择合适的模型进行评估，并利用MRR、NDCG、MAP等指标来衡量模型的性能。此外，CliniQ还允许根据不同的匹配类型（字符串、同义词、缩写、下位词和隐含意义）进行细粒度的性能分析。

背景与挑战

背景概述

电子病历（EHR）的实体检索在临床实践中扮演着至关重要的角色，它被广泛应用于各种临床实践中，如辅助医生进行临床决策和研究者寻找特定患者。然而，由于缺乏公开的基准数据集，实体检索在EHR中的应用评价一直是一个难题。为了解决这个问题，Zhengyun Zhao等人于2018年提出了CliniQ数据集，旨在为EHR实体检索提供一个公开的基准。CliniQ数据集基于MIMIC-III数据集中的出院摘要，并纳入了与之相关的ICD代码和处方标签作为查询，使用GPT-4进行相关性标注。该数据集共包含1000份患者笔记，生成了1246个查询，并提供了超过77000个相关性标注。CliniQ数据集的发布填补了EHR检索领域公开基准数据集的空白，为研究人员提供了一个重要的评价工具，推动了EHR检索技术的发展。

当前挑战

CliniQ数据集的构建过程中面临的主要挑战包括：1) 查询的构建和标注过程依赖于专家，限制了数据集的规模；2) 现有的评估通常只关注一个特定的下游应用，缺乏反映现实世界场景的通用性；3) 语义差距问题一直是EHR检索领域的主要挑战，包括词汇不匹配、粒度不匹配和含义不匹配等。为了解决这些挑战，CliniQ数据集采用了大规模查询、高质量的标注、两种检索设置（单患者检索和多患者检索）以及分类标签来评估语义匹配。此外，CliniQ数据集还通过使用GPT-4进行自动标注，提高了标注的效率和规模。然而，CliniQ数据集也暴露出一些问题，如实体检索在药物检索方面的表现不佳，以及语义匹配能力在不同匹配类型上的差异。这些挑战为未来的EHR检索研究提供了重要的研究方向。

常用场景

经典使用场景

电子病历（EHR）中的实体检索在临床实践中发挥着至关重要的作用，它被应用于包括医疗决策支持、患者信息查询、患者队列选择和疾病流行预测等多个领域。CliniQ数据集提供了一个评估实体检索性能的基准，特别是在语义差距问题上。该数据集利用MIMIC-III数据集中的出院总结，将ICD代码和处方标签作为查询，并通过GPT-4进行相关性判断的标注。这一数据集的构建和发布，为研究实体检索在EHR中的应用提供了宝贵的资源和评估标准。

衍生相关工作

CliniQ数据集的发布，衍生了一系列相关的经典工作。例如，基于CliniQ数据集的研究揭示了不同检索模型在语义匹配方面的优势和不足，为后续研究提供了有价值的参考。此外，CliniQ数据集的构建过程也为其他类似的数据集构建提供了范例，推动了EHR检索领域的发展。未来，随着CliniQ数据集的不断完善和扩展，预计将会有更多基于该数据集的研究成果出现，为EHR检索领域的发展做出更大的贡献。

数据集最近研究