Leaf Clinical Trials (LCT) corpus

Name: Leaf Clinical Trials (LCT) corpus
Creator: 华盛顿大学医学信息学与医学教育系
Published: 2022-07-28 03:22:24
License: 暂无描述

arXiv2022-07-28 更新2024-06-21 收录

下载链接：

https://doi.org/10.6084/m9.figshare.1720961

下载链接

链接失效反馈

官方服务：

资源简介：

Leaf Clinical Trials (LCT) corpus是一个由华盛顿大学医学信息学与医学教育系创建的大型人工标注数据集，包含超过1000条临床试验资格标准描述。该数据集通过高度粒度的结构化标签捕捉广泛的生物医学现象，旨在支持自然语言处理方法在临床试验资格标准转换为数据库查询方面的应用。LCT corpus不仅简化了模糊步骤和文本处理，还为查询生成提供了宝贵的训练数据集。该数据集的应用领域主要集中在临床试验参与者的招募，通过自动分析资格标准并生成数据库查询，以提高招募效率和准确性。

Leaf Clinical Trials (LCT) corpus is a large-scale manually annotated dataset developed by the Department of Medical Informatics and Medical Education at the University of Washington. It encompasses over 1,000 descriptions of clinical trial eligibility criteria. This corpus captures a broad spectrum of biomedical phenomena via highly granular structured labels, with the goal of supporting the application of natural language processing (NLP) methods in translating clinical trial eligibility criteria into database queries. The LCT corpus not only streamlines ambiguous processing steps and text handling workflows but also serves as a valuable training dataset for query generation. Its core application domain centers on clinical trial participant recruitment, where it automatically analyzes eligibility criteria and generates database queries to improve recruitment efficiency and accuracy.

提供机构：

华盛顿大学医学信息学与医学教育系

创建时间：

2022-07-28

搜集汇总

数据集介绍

构建方式

在临床研究领域，高效识别符合试验资格的患者是试验成功的关键环节。Leaf Clinical Trials (LCT) 语料库的构建旨在为自然语言处理技术提供高质量的标注数据，以支持从自由文本资格标准到数据库查询的自动转换。其构建过程始于从ClinicalTrials.gov平台随机选取1,020份2018年后的试验资格描述，并依据文本长度和结构一致性进行筛选，最终保留了1,006份文档。标注工作由两位专家遵循一套精细的、面向任务的标注体系进行，该体系包含50种实体类型和51种关系类型。标注过程融合了人工标注与半自动化流程：首先对部分文档进行人工标注与一致性训练，随后利用NeuroNER工具对剩余文档进行实体预测，并由标注者进行人工校对与修正，确保了语料库在复杂语义标注上的高质量与一致性。

特点

该语料库的显著特点在于其前所未有的标注粒度与丰富的语义表征能力。相较于既往的EliIE或Chia等语料库，LCT语料库通过引入大量细粒度的实体与关系类型，极大地深化了对临床试验资格标准中复杂生物医学现象的逻辑刻画。例如，它专门设计了“名称实体”来区分文本中指代的具体概念与泛指概念，并采用多层标注策略，将如“18-55岁”这样的表达分解为值、操作符、时间单位等相互关联的细粒度实体。这种设计不仅减少了后续查询生成时所需的额外规范化步骤，更能精准捕捉时间范围、因果关系、禁忌症等微妙语义，为下游自然语言处理模型提供了消除歧义、直接进行逻辑推理的结构化基础。

使用方法

LCT语料库的核心应用价值在于为自动化查询生成系统提供训练与评估基准。研究人员可利用该语料库训练命名实体识别和关系抽取模型，以自动解析新的自由文本资格标准。经过训练的模型能够将文本转化为结构化的实体-关系网络，该网络可进一步编译为SQL、FHIR等多种数据库查询语言，从而在电子健康记录系统中高效筛选潜在受试者。语料库的标注设计使其易于转化为有向无环图等程序化对象，简化了从语义理解到查询构建的流程。此外，其公开的基线模型性能数据为后续研究提供了明确的对比标杆，推动该领域向更准确、更实用的临床决策支持工具发展。

背景与挑战

背景概述

在临床研究领域，患者招募是决定试验成败的关键环节，而基于自由文本描述的试验资格标准向结构化数据库查询的转化过程，长期面临效率低下与易出错的挑战。为应对这一难题，华盛顿大学、东北大学及乔治梅森大学的研究团队于2022年共同构建了Leaf Clinical Trials（LCT）语料库。该资源包含超过一千条人工标注的临床试验资格标准，采用高度细粒度的结构化标签体系，旨在捕获复杂的生物医学现象语义。作为当前规模最大、标注最为详尽的公开可用语料库，LCT通过引入50种实体类型与51种关系类型，显著提升了自然语言处理模型在信息抽取与查询生成任务上的训练与评估能力，为自动化患者队列发现提供了坚实的数据基础。

当前挑战

LCT语料库致力于解决的核心领域挑战，是将非结构化的临床试验资格标准文本自动转化为可执行的数据库查询，以精准识别符合条件的患者。这一过程涉及对复杂医学概念、逻辑关系及时间约束的深度语义理解与解析。在构建过程中，研究团队面临多重挑战：首先，设计一套既能广泛覆盖各类生物医学现象，又具备高度任务导向性的标注体系，需在表达力与实用性间取得平衡；其次，确保标注的粒度与一致性，以区分命名实体与非特定概念，并准确捕捉如因果关系、时间范围等细微语义差别；再者，处理标注过程中因文本歧义、概念重叠及标注者主观差异带来的质量管控难题；最后，验证语料库在推动实际查询生成系统开发中的有效性与泛化能力，亦是持续面临的评估挑战。

常用场景

经典使用场景

在临床研究的信息抽取领域，Leaf Clinical Trials (LCT) 语料库最经典的应用场景是作为自然语言处理模型训练与评估的基准资源。该语料库通过精细标注的实体与关系，为从自由文本的临床试验入选标准自动生成结构化数据库查询这一核心任务提供了高质量的监督数据。研究者利用其超过十万个标注实例，能够系统地开发与验证命名实体识别、关系抽取以及语义解析算法，从而推动临床文本理解技术的进步。

解决学术问题

LCT语料库有效解决了临床信息学中几个关键的学术研究问题。首要问题是缓解了高质量、大规模标注数据的稀缺性，其精细的标注体系超越了早期语料库的广度与深度。其次，它通过引入“命名实体”与“非命名实体”的区分，以及细粒度的时间、逻辑关系标注，为处理入选标准中常见的模糊性、复杂时序逻辑和需要推理的语义场景提供了结构化解决方案。这为构建能够准确理解临床文本意图并转化为可执行查询的计算模型奠定了坚实基础，显著提升了自动化患者队列发现的可行性与准确性。

衍生相关工作

LCT语料库建立在EliIE和Chia等经典工作的基础上，并以其更丰富的标注体系催生了新的研究方向。它直接支持了端到端的语义解析模型开发，用于将入选标准转换为SQL等查询语言。同时，其细粒度的标注促进了基于图神经网络或转换器架构的复杂关系抽取模型研究。该语料库也启发了将临床文本语义与标准化医学术语体系（如UMLS、OMOP CDM）进行更精准映射的方法探索，以及面向真实世界电子健康记录进行查询生成与结果验证的评估框架构建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集