MultiNEL Corpus

github2024-01-23 更新2024-05-31 收录

下载链接：

https://github.com/lasigeBioTM/MultiNEL-corpus

下载链接

链接失效反馈

资源简介：

一个包含1917份英语、西班牙语和葡萄牙语临床病例报告的多语言银标准平行语料库，这些报告被标注了来自ICD10-CM术语的医疗诊断代码。

A multilingual silver-standard parallel corpus comprising 1,917 clinical case reports in English, Spanish, and Portuguese, annotated with medical diagnostic codes from the ICD10-CM terminology.

创建时间：

2020-03-08

原始信息汇总

数据集概述

名称: MultiNEL Corpus

描述: 该数据集是一个银标准平行语料库，包含1917篇临床病例报告，分为英语、西班牙语和葡萄牙语各639篇，这些报告均标注了来自ICD10-CM（国际疾病分类第10次修订临床修改版）的医学诊断代码。

内容:

英语、西班牙语和葡萄牙语的临床病例报告各639篇。
医学诊断代码来自ICD10-CM。

数据获取:

通过执行./get_data.sh脚本，可以下载英语、葡萄牙语和西班牙语版本的ICD10-CM数据。
通过执行python retrieve_abstracts.py脚本，从SciELO仓库检索临床病例报告的摘要。
通过执行python mer_annotate.py <language>脚本，对摘要中的医学诊断实体进行识别并链接到ICD10-CM术语中相应的代码。

数据格式:

英语版本的ICD10-CM数据格式为icd10cm_tabular_2020.xml。
葡萄牙语版本的ICD10-CM数据格式为ICD10CMPCS_2017_PT_Longa e Curta_20180821corrigidav5.2.xlsx。
西班牙语版本的ICD10-CM数据格式为CIE10_2020_DIAGNOST_REFERENCIA_2019_10_04_1.xlsx。
摘要数据存储在scielo_abstracts目录中，文件名后缀为en、pt、es分别代表英语、葡萄牙语和西班牙语文本。
标注数据存储在mer_annotations目录中，分为en、pt和es子目录，分别存储相应语言的标注文件。

引用:

P. Ruas, A. Lamurias, and F. Couto, “Towards a multilingual corpus for named entity linking evaluation in the clinical domain,” in The First International Workshop on Semantic Indexing and Information Retrieval for Health from heterogeneous content types and languages (SIIRH), 2020.

AI搜集汇总

数据集介绍

构建方式

MultiNEL Corpus的构建过程体现了多语言临床文本处理的复杂性。该数据集通过从SciELO知识库中检索符合特定筛选条件的临床病例报告摘要，确保了数据的多样性和代表性。随后，利用MER工具对这些摘要进行医学诊断实体识别，并将其链接至ICD10-CM术语中的相应代码。这一过程不仅涉及英语，还涵盖了西班牙语和葡萄牙语，确保了数据集的跨语言一致性。

特点

MultiNEL Corpus的显著特点在于其多语言平行语料库的构建，涵盖了英语、西班牙语和葡萄牙语的临床病例报告。每份报告均经过医学诊断代码的标注，这些代码源自ICD10-CM术语，确保了数据的专业性和准确性。此外，数据集的构建过程严格遵循科学方法，确保了数据的可靠性和可重复性，为跨语言医学信息处理研究提供了宝贵资源。

使用方法

使用MultiNEL Corpus时，用户首先需通过运行`get_data.sh`脚本下载ICD10-CM术语的英语、葡萄牙语和西班牙语版本。随后，通过`retrieve_abstracts.py`脚本从SciELO知识库中检索符合条件的临床病例报告摘要。最后，利用`mer_annotate.py`脚本对摘要进行医学诊断实体识别和ICD10-CM代码链接。这一系列操作不仅简化了数据获取和处理流程，还确保了数据的一致性和可用性。

背景与挑战

背景概述

MultiNEL Corpus是由P. Ruas、A. Lamurias和F. Couto等研究人员于2020年创建的多语言命名实体链接（Named Entity Linking, NEL）语料库，旨在为临床领域的命名实体链接评估提供支持。该语料库包含1917份英语、西班牙语和葡萄牙语的临床病例报告，每份报告均标注了来自ICD10-CM（国际疾病分类第十版临床修订版）的医学诊断代码。MultiNEL Corpus的构建基于SciELO（科学电子图书馆在线）数据库中的多语言临床病例摘要，并通过MER工具进行实体识别与链接。该数据集为跨语言临床文本处理提供了重要的资源，推动了多语言医疗信息检索与语义分析的研究进展。

当前挑战

MultiNEL Corpus在解决临床领域命名实体链接问题时面临多重挑战。首先，跨语言文本的实体识别与链接需要处理不同语言之间的语义差异和术语不一致性，这对模型的泛化能力提出了较高要求。其次，ICD10-CM术语体系的复杂性增加了实体链接的难度，尤其是在多语言环境下，同一疾病在不同语言中的表达可能存在显著差异。在数据集构建过程中，研究人员还需克服数据获取与标注的挑战，例如从SciELO数据库中筛选符合要求的临床病例摘要，并确保多语言文本的平行对齐。此外，自动化标注工具的准确性和一致性也是构建高质量语料库的关键挑战之一。

常用场景

经典使用场景

MultiNEL Corpus在自然语言处理领域，特别是在多语言命名实体链接任务中，展现了其独特的价值。该数据集通过提供英语、西班牙语和葡萄牙语的临床病例报告，为研究者提供了一个跨语言的实验平台。研究者可以利用这些数据，开发出能够识别和链接不同语言中医学诊断实体的算法，从而提升多语言环境下的信息检索和知识管理效率。

实际应用

在实际应用中，MultiNEL Corpus被广泛应用于医疗信息系统的开发中，特别是在需要处理多语言临床数据的场景。例如，国际医院和研究机构可以利用该数据集，构建能够自动识别和链接多语言医学诊断信息的系统，从而提高医疗服务的质量和效率。此外，该数据集还可用于开发多语言医学搜索引擎，帮助医生和研究人员快速获取跨语言的医学文献和病例报告。

衍生相关工作

MultiNEL Corpus的发布，催生了一系列相关的研究工作。例如，基于该数据集，研究者开发了多种多语言命名实体链接算法，这些算法在跨语言医学信息处理中表现出色。此外，该数据集还被用于评估和比较不同自然语言处理模型在多语言环境下的性能，推动了多语言自然语言处理技术的进步。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集