E3C-Corpus

github2024-01-18 更新2024-05-31 收录

下载链接：

https://github.com/hltfbk/E3C-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

E3C是一个免费的多语言语料库（英语、法语、意大利语、西班牙语和巴斯克语），包含语义标注的临床叙述，用于语言分析、基准测试和信息提取系统的训练。它包含两种类型的标注：(i) 临床实体（例如，病理），(ii) 时间信息和事实性（例如，事件）。研究人员可以使用我们的语料库的基准训练和测试分割来开发和测试他们自己的模型。

The E3C is a freely available multilingual corpus (including English, French, Italian, Spanish, and Basque) that contains semantically annotated clinical narratives, designed for linguistic analysis, benchmarking, and the training of information extraction systems. It features two types of annotations: (i) clinical entities (e.g., pathologies), and (ii) temporal information and factuality (e.g., events). Researchers can utilize the benchmark training and test splits of our corpus to develop and test their own models.

创建时间：

2021-05-19

原始信息汇总

E3C-Corpus 数据集概述

数据集描述

E3C-Corpus 是一个多语言（英语、法语、意大利语、西班牙语和巴斯克语）的临床叙述语料库，包含语义标注，用于支持信息提取系统的语言分析、基准测试和训练。该数据集包含两种类型的标注：(i) 临床实体（如病理）和 (ii) 时间信息及事实性（如事件）。

数据组织

数据集分为三个层次：

Layer 1: 约25,000个标记/语言，包含完整的临床实体、时间信息和事实性的手动标注，用于基准测试和语言分析。
Layer 2: 50,000-100,000个标记/语言，包含临床实体的半自动标注。
Layer 3: 约1,000,000个标记/语言，包含未标注的医学文档，适用于半监督方法。

数据来源

数据来源于多种渠道，包括PubMed、The Pan African Medical Journal、SPACCC corpus及其他医学相关的出版物和测试。

数据清洗与标注

Layer 1: 文档经过基本预处理，包括去除非临床案例部分、参考文献，以及恢复标点和大小写。文档包含完整的临床实体、时间信息和事实性的手动标注。
Layer 2: 临床实体通过字典匹配自动识别，并进行小样本手动校验。

数据验证

Layer 2中约10%的标记进行了手动标注，以评估临床实体的质量。结果显示了不同语言的精确度、召回率和F1分数。

数据使用

E3C-Corpus 支持信息提取系统的训练和评估。Layer 1分为训练和测试集，Layer 2和Layer 3可用于辅助训练。

许可

E3C-Corpus 根据Creative Commons NonCommercial 许可证（CC BY-NC）发布。

注释指南

提供了临床实体、时间信息和事实性标注的指南文档。

机器学习应用

数据集支持机器学习模型的训练和评估，提供了预处理数据格式，便于与多种机器学习库兼容。

搜集汇总

数据集介绍

构建方式

E3C-Corpus的构建过程体现了多语言临床叙事数据的系统化采集与标注。该数据集从PubMed、The Pan African Medical Journal等出版物及现有语料库中提取临床叙事，涵盖英语、法语、意大利语、西班牙语和巴斯克语五种语言。数据被组织为三个层次：第一层包含约25K标记的完全手动标注数据，用于基准测试和语言分析；第二层包含50-100K标记的半自动标注数据；第三层则包含约1M标记的未标注医学文档，适用于半监督学习方法。数据采集后，进行了基本的数据清洗，如移除非临床案例的句子和图表引用，并恢复了标点符号和大小写。

特点

E3C-Corpus的特点在于其多语言性和丰富的语义标注。数据集不仅标注了临床实体（如病理、症状、程序等），还包含了时间信息和事实性标注（如事件、时间表达式等）。第一层数据采用完全手动标注，确保了高质量的语言分析基准；第二层数据通过半自动标注技术生成，结合了UMLS词典和第一层训练数据的实体识别；第三层数据则为大规模未标注文档，支持半监督学习方法的探索。此外，数据集的文档长度经过平衡处理，分为短、中、长三类，以应对文本长度对时间信息复杂性的影响。

使用方法

E3C-Corpus的使用方法灵活多样，适用于信息提取系统的训练与评估。第一层数据提供了训练和测试分区，可直接用于模型的开发与测试；第二层数据可与第一层训练数据结合，扩展模型的训练规模；第三层数据则适用于半监督学习方法的探索。数据集支持多种机器学习格式，用户可通过预处理数据目录获取适合主流机器学习库的格式。此外，用户还可通过WebAnno工具查看和编辑标注数据，进一步支持模型的开发与优化。

背景与挑战

背景概述

E3C-Corpus是一个多语言临床叙事语料库，涵盖英语、法语、意大利语、西班牙语和巴斯克语，旨在支持信息提取系统的语言分析、基准测试和训练。该语料库由意大利特伦托大学的研究团队于2020年创建，主要研究人员包括B. Magnini、B. Altuna等。E3C-Corpus的核心研究问题在于如何通过语义标注的临床叙事数据，提升临床实体识别、时间信息提取和事实性分析的能力。该语料库的发布为临床自然语言处理领域提供了重要的数据资源，推动了多语言信息提取技术的发展，并在医学文本分析、临床决策支持系统等领域产生了广泛影响。

当前挑战

E3C-Corpus在构建和应用过程中面临多重挑战。首先，临床文本的复杂性和多样性使得实体识别和时间信息提取变得尤为困难，尤其是跨语言的语义一致性难以保证。其次，语料库的构建需要大量高质量的标注数据，而手动标注临床实体和时间信息的过程耗时且成本高昂。此外，不同语言之间的临床术语差异以及非连续实体的标注进一步增加了数据处理的难度。在应用层面，如何利用半监督学习方法有效利用未标注数据，以及如何提升自动标注的准确性和召回率，仍然是亟待解决的问题。这些挑战不仅影响了语料库的构建效率，也对后续模型的性能优化提出了更高的要求。

常用场景

经典使用场景

E3C-Corpus作为多语言临床叙事语料库，广泛应用于信息抽取系统的训练与评估。其经典使用场景包括临床实体的识别、时间信息的标注以及事实性分析。研究人员可以利用该语料库的基准训练和测试集，开发并验证自己的模型，特别是在多语言环境下进行临床文本的语义分析。

衍生相关工作

E3C-Corpus的发布催生了一系列相关研究，特别是在临床文本的信息抽取和语义分析领域。基于该数据集的研究工作包括多语言临床实体识别模型的开发、时间信息标注系统的优化以及事实性判断算法的改进。这些研究不仅推动了自然语言处理技术的发展，也为医疗信息系统的智能化提供了重要支持。

数据集最近研究