ACR

Name: ACR
Creator: 哥伦比亚大学
Published: 2024-06-21 07:04:06
License: 暂无描述

arXiv2024-06-21 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.14780v1

下载链接

链接失效反馈

官方服务：

资源简介：

ACR数据集是由哥伦比亚大学创建，专注于自动队列检索任务，包含1436名患者的医疗记录，总计115,865份文档。该数据集主要来源于非结构化电子医疗记录（EMRs），涵盖了多个医疗站点，旨在通过大规模、纵向的数据支持临床研究和实践。创建过程中，数据集利用了AI技术进行高效处理和标注，以确保数据的质量和可用性。ACR数据集的应用领域广泛，包括临床试验招募、回顾性研究和协议设计等，旨在解决医疗数据检索中的效率和质量问题。

The ACR dataset, developed by Columbia University, focuses on the automatic cohort retrieval task. It contains medical records of 1,436 patients, totaling 115,865 documents. Primarily sourced from unstructured electronic medical records (EMRs) across multiple medical sites, this dataset aims to support clinical research and practice with large-scale, longitudinal data. During its creation, AI technologies were utilized for efficient processing and annotation to ensure data quality and availability. The ACR dataset has a wide range of application scenarios, including clinical trial recruitment, retrospective studies, and protocol design, among others. It is designed to address the efficiency and quality issues in medical data retrieval.

提供机构：

哥伦比亚大学

创建时间：

2024-06-21

搜集汇总

数据集介绍

构建方式

该数据集ACR（Automatic Cohort Retrieval）的构建旨在解决医疗健康领域中患者队列识别的挑战。传统的队列检索方法依赖于对结构化数据的自动查询和人工审核，这些方法耗时、劳动密集且往往结果质量不高。ACR数据集通过引入自动队列检索任务，利用大型语言模型（LLMs）和信息检索（IR）的最新进展，旨在革新这些系统。数据集的构建包括查询数据集、EMR数据集和一个评估框架，用于评估LLMs和商业、特定领域的神经符号方法在自动队列检索任务中的性能。

使用方法

ACR数据集的使用方法包括多个方面。首先，研究者和开发者可以利用查询数据集来测试和评估他们的自动队列检索系统。其次，EMR数据集可以用于训练和验证这些系统，特别是针对处理长时序医疗记录的能力。此外，评估框架提供的指标可以帮助研究人员深入分析系统的性能，并识别其在检索质量、幻觉倾向和集合论一致性方面的弱点。最后，ACR数据集可以用于研究和开发新的自动队列检索技术，以解决医疗健康领域中患者队列识别的挑战。

背景与挑战

背景概述

在医疗保健领域，确定患者队列对于临床研究、实践和临床试验的招募至关重要。当前，医疗机构中的队列检索方法主要依赖于对结构化数据的自动化查询和手动校对，这些方法既耗时又费力，且往往结果质量不高。为了解决这一问题，研究人员提出了自动队列检索（ACR）任务，旨在通过利用大型语言模型（LLM）和信息检索（IR）的最新进展来革新这些系统。该任务涉及从真实世界数据（RWD）库中根据查询定义的患者资格标准识别一组患者。本文介绍了一个新的自动队列检索（ACR）基准任务，并评估了LLM和商业、特定领域的神经符号方法在执行此任务时的性能。该研究提供了一个基准任务、一个查询数据集、一个电子病历（EMR）数据集和一个评估框架。研究结果表明，需要高效、高质量的ACR系统，能够在大规模患者数据库中执行纵向推理。

当前挑战

ACR任务面临着诸多挑战，其中包括处理广泛的资格标准，以及处理非结构化电子病历（EMR）的纵向性质，同时确保解决方案的成本效益。为了实现这一目标，研究人员提出了一种新的任务，即自动队列检索（ACR），并评估了LLM和商业、特定领域的神经符号方法在执行此任务时的性能。此外，研究还发现，当查询变得更加复杂时，需要对多个文档中的数据进行整合，这使得检索系统必须具备纵向推理能力。为了应对这些挑战，研究人员探索了LLM和神经符号方法在ACR任务中的应用，并提出了各种技术来分层查询和患者，以更深入地研究这些系统的弱点和机会。

常用场景

经典使用场景

ACR数据集主要用于自动队列检索任务，该任务旨在从电子病历（EMR）中识别符合特定标准的患者群体，以便于临床研究、临床试验招募和回顾性研究等。该数据集包含了来自四个大型学术或社区肿瘤学实践的1,436名患者的115,865个医疗记录，以及由医学专家撰写的113个复杂查询。这些查询涵盖了包括乳腺癌、肺癌、前列腺癌等多种癌症类型，以及各种治疗方法和临床特征。ACR数据集的规模和复杂性使其成为评估自动队列检索系统性能的理想基准。

解决学术问题

ACR数据集解决了自动队列检索中的一些关键学术研究问题，包括如何有效地处理大量的患者数据和纵向的EMR数据。传统的队列检索方法依赖于结构化数据的自动化查询和手动人工审查，这种方法耗时、劳动密集且结果质量低。ACR数据集通过提供大规模的纵向EMR数据集，使得研究人员可以评估自动队列检索系统在处理大规模数据时的性能和效率。此外，ACR数据集还引入了新的评价指标，如幻觉比例和集合理论一致性，以评估系统的准确性和可靠性。

实际应用

ACR数据集的实际应用场景包括临床研究、临床试验招募和回顾性研究等。例如，研究人员可以使用ACR数据集来评估自动队列检索系统在识别符合特定治疗条件的患者群体方面的性能。此外，ACR数据集还可以用于开发新的队列检索算法和工具，以提高检索的准确性和效率。ACR数据集的公开可用性使得研究人员可以轻松地使用该数据集来测试和评估他们的队列检索系统，从而推动该领域的研究和发展。

数据集最近研究