European Clinical Case Corpus (E3C-3.0)
收藏arXiv2025-03-26 更新2025-03-28 收录
下载链接:
https://huggingface.co/collections/NLP-FBK/e3c-projected-676a7d6221608d60e4e9fd89
下载链接
链接失效反馈官方服务:
资源简介:
欧洲临床案例语料库(E3C)是一个免费的多语言医疗领域语料库,包含五种语言的临床案例,这些案例被手动注释以语义信息。E3C起源于五个语言版本,后扩展到四个低资源语言版本。该语料库通过半自动化的方式,结合大型语言模型自动注释投影和人工修订,为低资源语言的信息提取提供了有力支持,并在多个自然语言处理任务中展示了其作为基准数据集的价值。
The European Clinical Case Corpus (E3C) is a free multilingual medical corpus containing clinical cases across five languages, all of which have been manually annotated with semantic information. Originally launched with five language versions, E3C has since expanded to include four low-resource language variants. Adopting a semi-automated workflow that combines automatic annotation projection powered by large language models (LLMs) and manual revision, this corpus provides robust support for information extraction in low-resource languages, and has demonstrated its value as a benchmark dataset across multiple natural language processing tasks.
提供机构:
Fondazione Bruno Kessler, Trento, Italy
创建时间:
2025-03-26
搜集汇总
数据集介绍

构建方式
European Clinical Case Corpus (E3C-3.0) 是一个多语言医学领域数据集,包含五种原生语言(英语、法语、意大利语、西班牙语和巴斯克语)的临床病例文本,以及通过半自动方法从英语源文本翻译并标注到五种目标语言(希腊语、意大利语、波兰语、斯洛伐克语和斯洛文尼亚语)的文本。数据集的构建采用了基于大型语言模型(LLMs)的自动标注投影和人工修订相结合的方法。具体步骤包括:1)从PubMed等公开资源收集临床病例;2)手动标注语义信息(如临床实体、时间关系和测试结果关系);3)通过GPT-4等模型进行跨语言翻译和标注投影;4)由母语专家对投影结果进行人工验证和修正。这种混合方法显著降低了多语言标注的成本,同时确保了数据质量。
特点
E3C-3.0的核心特点体现在其丰富的语义标注体系和多语言覆盖上。数据集不仅标注了临床症状、疾病、身体部位等实体,还包含三类复杂关系:PERTAINS-TO(测试结果与对应检测的关系)、TLINK(事件间时间关系)和ALINK(事件阶段性关系)。其标注框架支持嵌套和重叠实体,并采用UIMA CAS XMI标准格式存储。此外,数据集通过原生与投影数据的结合,覆盖了高资源与低资源语言的平衡,尤其为希腊语等低资源语言提供了稀缺的医学标注数据。实验表明,基于E3C-3.0微调的LLMs在临床实体识别和关系抽取任务中表现优异,跨语言迁移学习可提升低资源语言性能达5-12个F1点。
使用方法
E3C-3.0支持两类核心任务:临床实体检测和测试-结果关系抽取。使用时需注意:1)对于原生语言数据,可直接用于模型训练和评估;2)投影语言数据建议结合人工修订版本以提升性能;3)跨语言任务可通过联合训练所有语言数据增强泛化能力(如MedMT5在斯洛伐克语上F1提升12.68)。数据集以HuggingFace平台提供,包含标准化的训练/验证/测试划分。典型流程包括:加载XMI格式数据→转换为模型输入序列(如图10所示的标签文本结构)→微调生成式模型(如Llama3或MedMT5)。研究显示,模型在投影数据上训练后,对原生数据的泛化性能差距可缩小至2个F1点,凸显其实际应用价值。
背景与挑战
背景概述
European Clinical Case Corpus (E3C-3.0) 是由Fondazione Bruno Kessler等机构联合开发的多语言医学领域数据集,旨在解决临床病例中疾病与检测结果关系的标注问题。该数据集包含五种原生语言(英语、法语、意大利语、西班牙语和巴斯克语)的文本,以及通过半自动方法从英语源文本翻译并标注投射到五种目标语言(希腊语、意大利语、波兰语、斯洛伐克语和斯洛文尼亚语)的文本。E3C-3.0的创建时间为2020年,核心研究问题是通过信息抽取技术从临床文本中提取关键医学信息,以支持急诊医学领域的临床研究和决策。该数据集在低资源语言处理和跨语言信息抽取领域具有重要影响力,为多语言医学自然语言处理任务提供了宝贵的资源。
当前挑战
E3C-3.0数据集面临的主要挑战包括:1) 领域问题的挑战:临床文本的复杂性和专业性使得信息抽取任务(如临床实体识别和检测结果关系抽取)具有较高难度,需要模型能够理解医学术语和复杂的句法结构;2) 构建过程的挑战:跨语言标注投射过程中存在语言差异导致的标注对齐问题,如词序变化、形态差异和术语不对等;自动翻译和标注投射的质量控制;低资源语言的数据稀缺问题;以及医学数据隐私保护带来的数据获取限制。这些挑战需要通过半自动标注流程和人工校验相结合的方式来解决,以确保数据集的质量和可用性。
常用场景
经典使用场景
European Clinical Case Corpus (E3C-3.0) 数据集在医疗信息提取领域具有广泛的应用价值。该数据集包含多语言临床病例文本,标注了疾病和检测结果之间的关系,为研究人员提供了丰富的语料资源。在自然语言处理任务中,E3C-3.0 常用于训练和评估命名实体识别(NER)和关系提取(RE)模型,特别是在低资源语言环境下。通过结合大型语言模型(LLMs)的自动标注和人工修订,该数据集显著提升了跨语言信息提取的准确性和可靠性。
解决学术问题
E3C-3.0 数据集解决了医疗领域中数据稀缺的核心问题,尤其是在低资源语言环境下。通过半自动化的标注投影方法,该数据集成功将英语源文本的标注扩展到希腊语、波兰语、斯洛伐克语和斯洛文尼亚语等语言,显著减少了人工标注的工作量。此外,该数据集支持跨语言迁移学习,使得在资源有限的语言中也能实现高性能的信息提取。其丰富的标注框架(如临床实体、时间关系和检测结果关系)为研究复杂的医疗文本结构提供了重要支持。
衍生相关工作
E3C-3.0 数据集衍生了一系列经典研究工作。例如,基于该数据集的 CLinkaRT 和 TESTLINK 共享任务,分别针对意大利语、西班牙语和巴斯克语的检测结果关系提取任务进行了系统评估。此外,该数据集还支持了多语言医疗信息提取模型的开发,如 MedMT5 和 Llama 3 的微调实验。这些工作不仅验证了数据集的实用性,还推动了低资源语言信息提取技术的发展。
以上内容由遇见数据集搜集并总结生成



