E3C
收藏arXiv2025-06-13 更新2025-06-17 收录
下载链接:
https://huggingface.co/collections/NLP-FBK/e3c-to-crf-67b9844065460cbe42f80166
下载链接
链接失效反馈官方服务:
资源简介:
E3C数据集是一个多语言(意大利语和英语)的数据集,用于案例报告表(CRF)的槽填充。该数据集通过将公开可用的临床案例数据集转换为结构化的CRFs而创建,以解决现有CRF数据集稀缺的问题。数据集中的每个例子都包含一个临床案例、一个待填充的CRF以及从临床笔记中得出的CRF的标准填充值。该数据集旨在促进CRF自动填充系统的发展,并通过在创建的数据集上进行的实验表明,即使对于最新的语言模型,填充CRFs仍然是一个具有挑战性的任务。
The E3C dataset is a multilingual (Italian and English) dataset for case report form (CRF) slot filling. It was created by converting publicly available clinical case datasets into structured CRFs to address the scarcity of existing CRF datasets. Each example in the dataset contains a clinical case, a CRF to be filled, and the standard filled values of the CRF derived from clinical notes. This dataset aims to facilitate the development of automated CRF filling systems. Experiments conducted on the constructed dataset have shown that filling CRFs remains a challenging task even for state-of-the-art language models.
提供机构:
Fondazione Bruno Kessler, University of Padova
创建时间:
2025-06-13
搜集汇总
数据集介绍

构建方式
在临床研究领域,病例报告表(CRF)作为标准化数据采集工具,其自动化填充系统的开发面临公开标注数据集稀缺的挑战。本研究创新性地提出一种半自动转换方法,通过语义聚类将欧洲临床病例语料库(E3C)中标注的英文和意大利文临床病例转化为结构化CRF。该方法首先基于诊断相似性和实体共享率构建病例相似性图谱,采用Louvain算法进行病例聚类;随后利用统一医学语言系统(UMLS)对临床实体进行标准化映射,通过人工校验生成组特异性CRF模板,最终形成包含临床病例、空白CRF及标注填充值的三元组数据集。
特点
该数据集具有显著的跨语言特性与临床专业性,包含英语和意大利语双语的170例临床病例,涵盖诊断、病史、检查结果等六大临床模块。其核心特征体现为:1)通过UMLS术语标准化实现语义一致性,解决临床表述多样性问题;2)采用诊断加权相似性度量(s=3d+e)构建的病例聚类,确保CRF模板的临床相关性;3)标注体系包含极性、情境模态和持续性三重属性,支持12种病史应答组合;4)数据稀疏性显著,平均填充率仅14%,真实反映临床CRF使用场景。
使用方法
该数据集支持三类临床信息抽取任务:诊断确认(三分类)、病史判定(多属性组合分类)及检查结果生成(开放域抽取)。使用时应遵循原始论文划分的训练测试集,注意组特异性CRF在跨病例共享时可能引入的数据泄漏风险。对于模型评估,建议采用严格匹配准则计算微观/宏观F1值,其中诊断任务需区分明确否定与信息缺失,检查结果任务需处理多值分隔符[\MULTI_ANSWER]。实验表明,当前最佳模型(GPT-4o)在英语任务上宏观F1仅达63.4%,验证了该数据集对现有NLP技术的挑战性。
背景与挑战
背景概述
E3C数据集(European Clinical Case Corpus)是由Fondazione Bruno Kessler和University of Padova的研究团队于2023年创建的多语言临床病例语料库,旨在支持医学信息抽取和自然语言处理研究。该数据集包含英语、意大利语等五种语言的临床病例,涵盖丰富的医学实体、时间关系和事件标注,为临床病例的结构化表示提供了重要资源。研究团队通过半自动方法将E3C转换为结构化病例报告表(CRF),进一步推动了临床研究数据标准化和自动化处理的进展。E3C的发布填补了公开高质量CRF数据集的空白,为临床信息抽取系统的开发和评估提供了重要基准。
当前挑战
E3C数据集面临的核心挑战包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,临床病例的复杂性和多样性使得CRF填充任务极具挑战性,尤其是诊断项分类(准确率仅59.7%-67.3%)和检查结果生成(需处理数值、分类文本等多种格式)。构建过程中的挑战包括:1)诊断提取的模糊性(同一概念多种表述、隐含诊断识别);2)临床病例聚类时语义相似度计算的复杂性(需整合UMLS术语扩展和LLM嵌入);3)多语言临床术语对齐问题(英语与意大利语间的概念映射);4)CRF项生成的稀疏性(90%项无填充值),需平衡特异性和泛化性。这些挑战凸显了临床文本结构化处理的固有难度。
常用场景
经典使用场景
E3C数据集在临床自然语言处理领域展现出独特价值,其多语言临床病例标注特性使其成为研究CRF(病例报告表)自动填充任务的理想基准。该数据集通过将临床笔记中的非结构化信息映射到结构化CRF项目,为开发自动化医疗数据提取系统提供了标准化评估框架,特别是在诊断确定、病史提取和检查结果归类等核心临床场景中。
衍生相关工作
该工作催生了多个重要研究方向:Mac Kenzie等人开创的临床叙事文本结构化研究被扩展至多语言场景;Gutiérrez-Sacristán团队提出的自动CRF填充框架在本数据集上得到性能验证;同时启发了Qwen、Llama等大语言模型在医疗垂直领域的微调研究,推动形成了NLP与临床信息学交叉创新的研究范式。
数据集最近研究
最新研究方向
近年来,E3C数据集在临床信息提取与结构化报告领域的研究呈现出显著的前沿趋势。研究者们致力于通过半自动化方法将标注的临床病例转化为结构化的病例报告表(CRF),以解决公开可用的高质量CRF数据集稀缺的问题。这一研究方向紧密结合了自然语言处理(NLP)技术和大语言模型(LLM)的应用,特别是在多语言环境下(如英语和意大利语)的CRF填充任务中。实验结果表明,即使是当前最先进的LLM模型,在零样本设置下的CRF填充任务中仍面临较大挑战,准确率仅为59.7%(意大利语)和67.3%(英语)。这一研究不仅推动了临床数据标准化与自动化处理的进程,还为跨语言医疗信息系统的开发提供了重要支持。
相关研究论文
- 1Converting Annotated Clinical Cases into Structured Case Report FormsFondazione Bruno Kessler, University of Padova · 2025年
以上内容由遇见数据集搜集并总结生成



