CMeEE

github2024-09-09 更新2024-09-11 收录

下载链接：

https://github.com/lingskr/Medical-named-entity-recognition-based-on-extractive-UIE-open-sourced-from-PaddleNLP

下载链接

链接失效反馈

官方服务：

资源简介：

CMeEE数据集用于医学命名实体识别任务，本项目在该数据集上进行效果测试。

The CMeEE dataset is intended for medical named entity recognition tasks, and this project conducts performance testing on this dataset.

创建时间：

2024-09-09

原始信息汇总

基于PaddleNLP开源的抽取式UIE进行医学命名实体识别

简介

本项目使用torch进行复现微调，并在CMeEE数据集上进行效果测试。本项目仅做了命名实体部分，后续会在ark-nlp项目中加入关系抽取和事件抽取等任务。

数据下载

CMeEE：https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414

环境

安装依赖： shell pip install ark-nlp pip install pandas

使用说明

项目目录结构如下： shell │ ├── data # 数据文件夹 │ ├── source_datasets
│ ├── task_datasets
│ └── output_datasets
│ ├── checkpoint # 存放训练好的模型 │ ├── ...
│ └── ...
│ └── example.ipynb # 代码

下载数据并解压到data/source_datasets中，运行example.ipynb文件。

权重文件

已将paddle模型的权重转化成huggingface的格式，并上传至huggingface：https://huggingface.co/freedomking/prompt-uie-base

效果

运行一到两轮后提交至CBLUE进行测评，大概在65-66左右，已高于大部分的基线模型。

搜集汇总

数据集介绍

构建方式

CMeEE数据集的构建基于PaddleNLP开源的抽取式UIE框架，该框架借鉴了Yaojie Lu等人在ACL-2022中提出的通用信息抽取统一框架UIE。通过ERNIE 3.0知识增强预训练模型，结合Prompt技术，实现了对医学文本中命名实体的高效识别。数据集的构建过程涉及对大量医学文献和临床记录的深度分析与标注，确保了实体识别的准确性和覆盖面。

特点

CMeEE数据集的显著特点在于其专注于医学领域的命名实体识别，涵盖了广泛的医学术语和实体类型。数据集采用了先进的UIE框架，结合ERNIE 3.0模型，提供了高质量的预训练权重，使得模型在医学文本处理中表现卓越。此外，数据集的结构化设计便于用户进行定制化训练和评估，支持多种下游任务的扩展。

使用方法

使用CMeEE数据集时，用户需首先下载数据并将其解压至指定目录。随后，通过运行提供的Jupyter Notebook文件，用户可以加载预训练模型并进行微调。数据集支持多种环境配置，包括ark-nlp和pandas库的安装。为了简化使用，数据集还提供了转换后的Hugging Face格式权重文件，便于快速集成和应用。

背景与挑战

背景概述

CMeEE数据集，全称为中文医学命名实体识别数据集，是基于PaddleNLP开源的抽取式UIE框架进行构建的。该数据集的创建旨在推动医学领域的信息抽取技术，特别是命名实体识别（NER）。UIE框架由Yaojie Lu等人在ACL-2022中提出，是一个通用信息抽取的统一框架，PaddleNLP在此基础上开发了基于Prompt的抽取式UIE模型。CMeEE数据集的开发和应用，不仅提升了医学文本处理的能力，也为相关领域的研究提供了宝贵的资源。

当前挑战

CMeEE数据集在构建和应用过程中面临多项挑战。首先，医学文本的复杂性和专业性要求高度精确的命名实体识别，这对模型的准确性和鲁棒性提出了高要求。其次，数据集的构建需要大量的医学专业知识和标注工作，确保数据的准确性和完整性。此外，如何在有限的医学文本数据上训练出高效且泛化能力强的模型，也是当前研究中的一个重要挑战。最后，模型的实际应用中，如何处理多样化和不断变化的医学术语，确保系统的持续有效性，也是一个亟待解决的问题。

常用场景

经典使用场景

在医学领域，CMeEE数据集的经典使用场景主要集中在医学命名实体识别（NER）任务中。通过该数据集，研究人员能够训练和评估模型，以自动识别和分类医学文本中的关键实体，如疾病、药物、症状等。这一过程不仅提升了医学文本处理的自动化水平，还为后续的关系抽取和事件抽取等任务奠定了基础。

衍生相关工作

基于CMeEE数据集，研究人员开发了多种扩展和改进的模型，如结合关系抽取和事件抽取的多任务学习框架。这些工作不仅提升了命名实体识别的性能，还推动了医学信息抽取领域的整体进展。此外，该数据集还激发了跨学科的研究，如结合自然语言处理和医学知识图谱的构建，进一步丰富了医学信息学的研究内容。

数据集最近研究