five

CMeEE

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CMeEE
下载链接
链接失效反馈
官方服务:
资源简介:
CMeEE数据集主要用于医疗实体识别任务。此次任务共标注了938份档案、47,194句,包括504儿科常见病、7,085身体部位、12,907临床表现、4,354医疗程序等9类医疗实体。医学文本的命名实体分为九类,包括: 疾病 (dis),临床表现 (sym),药物 (dru),医疗设备 (equ),医疗程序 (pro),身体 (bod),医学检查项目 (ite),微生物学 (mic),部门 (部门)。标签之前,文章会自动分段,并且所有医疗实体都已正确分段。训练、验证和测试集分别是15,000、5,000和3,000条目。数据集来自CHIP2020学术评比大赛,由 “北京大学” 、 “郑州大学” 、 “鹏城实验室” 联合提供。

The CMeEE dataset is primarily utilized for medical named entity recognition tasks. It contains 938 annotated medical records and 47,194 sentences, covering 9 categories of medical entities including 504 common pediatric diseases, 7,085 body parts, 12,907 clinical manifestations, 4,354 medical procedures, and other types. The named entities in medical texts are divided into 9 categories, specifically: Disease (dis), Clinical Manifestation (sym), Drugs (dru), Medical Devices (equ), Medical Procedures (pro), Body Parts (bod), Medical Examination Items (ite), Microbiology (mic), and Department. Prior to annotation, the articles were automatically segmented, and all medical entities were correctly bounded. The training, validation and test sets consist of 15,000, 5,000 and 3,000 entries respectively. The dataset originates from the CHIP2020 academic evaluation competition, and was jointly provided by Peking University, Zhengzhou University and Peng Cheng Laboratory.
提供机构:
OpenDataLab
创建时间:
2023-05-15
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CMeEE是一个用于医疗实体识别任务的中文数据集,包含938份档案、47,194句文本,标注了9类医疗实体,如疾病、临床表现和药物等,具体实体数量丰富,例如504儿科常见病和7,085身体部位。该数据集来自CHIP2020学术评比大赛,由北京大学、郑州大学和鹏城实验室联合提供,发布于2020年,划分为训练集15,000条、验证集5,000条和测试集3,000条,适用于医疗自然语言处理研究和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作