CMeEE

Name: CMeEE
Creator: OpenDataLab
Published: 2026-05-17 04:30:41
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/CMeEE

下载链接

链接失效反馈

官方服务：

资源简介：

CMeEE数据集主要用于医疗实体识别任务。此次任务共标注了938份档案、47,194句，包括504儿科常见病、7,085身体部位、12,907临床表现、4,354医疗程序等9类医疗实体。医学文本的命名实体分为九类，包括: 疾病 (dis)，临床表现 (sym)，药物 (dru)，医疗设备 (equ)，医疗程序 (pro)，身体 (bod)，医学检查项目 (ite)，微生物学 (mic)，部门 (部门)。标签之前，文章会自动分段，并且所有医疗实体都已正确分段。训练、验证和测试集分别是15,000、5,000和3,000条目。数据集来自CHIP2020学术评比大赛，由 “北京大学” 、 “郑州大学” 、 “鹏城实验室” 联合提供。

The CMeEE dataset is primarily utilized for medical named entity recognition tasks. It contains 938 annotated medical records and 47,194 sentences, covering 9 categories of medical entities including 504 common pediatric diseases, 7,085 body parts, 12,907 clinical manifestations, 4,354 medical procedures, and other types. The named entities in medical texts are divided into 9 categories, specifically: Disease (dis), Clinical Manifestation (sym), Drugs (dru), Medical Devices (equ), Medical Procedures (pro), Body Parts (bod), Medical Examination Items (ite), Microbiology (mic), and Department. Prior to annotation, the articles were automatically segmented, and all medical entities were correctly bounded. The training, validation and test sets consist of 15,000, 5,000 and 3,000 entries respectively. The dataset originates from the CHIP2020 academic evaluation competition, and was jointly provided by Peking University, Zhengzhou University and Peng Cheng Laboratory.

提供机构：

OpenDataLab

创建时间：

2023-05-15

搜集汇总

数据集介绍

背景与挑战

背景概述

CMeEE是一个用于医疗实体识别任务的中文数据集，包含938份档案、47,194句文本，标注了9类医疗实体，如疾病、临床表现和药物等，具体实体数量丰富，例如504儿科常见病和7,085身体部位。该数据集来自CHIP2020学术评比大赛，由北京大学、郑州大学和鹏城实验室联合提供，发布于2020年，划分为训练集15,000条、验证集5,000条和测试集3,000条，适用于医疗自然语言处理研究和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集