ICR_Corpus

github2021-08-29 更新2024-05-31 收录

下载链接：

https://github.com/lasigeBioTM/ICERL_system-ICR_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

ICR_Corpus是一个与伊比利亚癌症相关的语料库，用于支持ICERL系统的实体识别和链接任务。

ICR_Corpus is a corpus related to Iberian cancer, which supports the named entity recognition and entity linking tasks of the ICERL system.

创建时间：

2021-08-07

原始信息汇总

ICERL_system / ICR_Corpus

数据集与ICERL（Iberian Cancer-related Entity Recognition and Linking）系统和ICR（Iberian Cancer-related）语料库的开发相关。

1-准备

获取文件

获取ICR_corpus、PT嵌入文件和PT NER模型训练文件。仅使用了前500个嵌入文件。 bash ./retrive_all_files.sh

预处理文件并训练嵌入

bash python3 src/NER/train_flair_embeddings.py <direction> <language>

direction: fwd表示训练正向语言模型，bwd表示训练反向语言模型。
language: pt表示葡萄牙语，es表示西班牙语。

2-NER

转换训练文件为IOB2模式并训练NER标签器

注意：生成的PT训练文件需要手动校正以达到描述的结果。正确的PT训练文件位于./data/iob2/train_pt/目录。 bash python3 src/NER/train_ner_models.py <model>

model: cantemist表示西班牙模型，cantemistpt, cantemistpt_biobertpt 或 biobertpt表示葡萄牙模型。

预测文本中的实体

bash python3 src/NER/predict_ner.py <model> <language>

model: cantemist表示西班牙模型，cantemistpt, cantemistpt_biobertpt 或 biobertpt表示葡萄牙模型。
language: pt表示葡萄牙语，es表示西班牙语。

注释文件将位于./evaluation/NER/<language>目录。

3-NEL

为NER任务的输出查找DeCS和CIE/CID代码

bash ./norm.sh multi_ont <language>

language: pt表示葡萄牙语，es表示西班牙语。

注释文件将位于./evaluation/NEL/multi_ont/<language>目录。

4-评估

评估ICERL系统的性能

bash python3 evaluation_pt_es.py

搜集汇总

数据集介绍

构建方式

ICR_Corpus的构建过程主要依赖于从SciELO和PubMed等学术数据库中检索相关文献，并从中提取与癌症相关的实体信息。通过使用Flair框架进行嵌入训练，数据集进一步优化了葡萄牙语和西班牙语的命名实体识别（NER）模型。此外，数据集还采用了IOB2标注格式对训练文件进行转换，并通过手动校正确保数据的准确性。这一过程不仅涵盖了实体的识别，还包括实体链接（NEL）任务，通过DeCS和CIE/CID编码系统对实体进行标准化处理。

特点

ICR_Corpus的特点在于其专注于伊比利亚语系（葡萄牙语和西班牙语）的癌症相关实体识别与链接任务。数据集提供了丰富的嵌入模型选择，包括基于Flair的自定义嵌入以及BioBERT等预训练模型。此外，数据集的标注文件经过精心校正，确保了高质量的训练数据。ICR_Corpus还支持多语言处理，能够同时处理葡萄牙语和西班牙语的文本，为跨语言研究提供了便利。

使用方法

使用ICR_Corpus时，用户首先需要通过提供的脚本检索所有相关文件，并选择适当的嵌入模型进行训练。随后，用户可以使用训练好的NER模型对文本中的实体进行预测，并将结果存储在指定目录中。为了进一步实现实体链接，用户可以通过运行标准化脚本来获取DeCS和CIE/CID编码。最后，数据集提供了评估脚本，用户可以通过该脚本对ICERL系统的性能进行全面评估。整个过程支持葡萄牙语和西班牙语的双语处理，适用于多语言环境下的癌症研究。

背景与挑战

背景概述

ICR_Corpus数据集是由Iberian Cancer-related Entity Recognition and Linking (ICERL)系统开发团队创建的，专注于伊比利亚语系（葡萄牙语和西班牙语）中与癌症相关的实体识别与链接任务。该数据集的构建旨在支持生物医学文本挖掘领域的研究，特别是针对癌症相关实体的自动识别与标准化链接。通过整合来自SciELO和PubMed的文献数据，ICR_Corpus为研究人员提供了一个高质量的多语言语料库，推动了伊比利亚语系生物医学文本处理技术的发展。

当前挑战

ICR_Corpus在构建与应用过程中面临多重挑战。首先，癌症相关实体的识别与链接任务本身具有高度复杂性，尤其是在多语言环境下，实体表达的多样性和语言结构的差异增加了模型训练的难度。其次，数据集的构建依赖于从SciELO和PubMed等平台获取的文献数据，这些数据的质量和一致性可能因来源不同而存在差异，需进行大量预处理工作以确保语料库的可靠性。此外，葡萄牙语和西班牙语的嵌入模型训练需要大量计算资源，且训练过程中需手动校正部分标注数据，进一步增加了数据集构建的复杂性和时间成本。

常用场景

经典使用场景

ICR_Corpus数据集在癌症相关实体识别与链接（NER和NEL）领域具有广泛应用。通过该数据集，研究人员能够训练和优化针对葡萄牙语和西班牙语的命名实体识别模型，特别是在癌症相关的文本数据中识别关键实体。该数据集的使用场景包括从科学文献中提取癌症相关术语，并对其进行标准化编码，以便于后续的医学研究和数据分析。

衍生相关工作

基于ICR_Corpus数据集，许多经典工作得以衍生。例如，研究人员开发了ICERL系统，该系统结合了NER和NEL技术，能够自动识别和链接癌症相关实体。此外，该数据集还促进了多语言医学文本分析工具的开发，如基于Flair和BioBERT的命名实体识别模型，这些工具在癌症研究领域得到了广泛应用。

数据集最近研究