five

中文医学命名实体识别数据集(CMeEE)

收藏
阿里云天池2026-06-09 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/144495
下载链接
链接失效反馈
官方服务:
资源简介:
中文医学命名实体识别CMeEE,全称为Chinese Medical Entity Extraction dataset。数据集包含504种常见的儿科疾病、7,085种身体部位、12,907种临床表现、4,354种医疗程序等九大类医学实体,包含训练集15,000条,验证集5,000条和测试集数据3,000条。 <br />CMeEE包括两个版本:CMeEE和CMeEE-V2(在CMeEE基础上更新了部分标注错误)。 <br />请研究人员到CBLUE项目主页下载:https://tianchi.aliyun.com/dataset/95414

CMeEE, short for Chinese Medical Entity Extraction dataset, is a Chinese medical named entity recognition dataset. This dataset encompasses nine categories of medical entities, including 504 common pediatric diseases, 7,085 anatomical sites, 12,907 clinical manifestations, 4,354 medical procedures, and more. It is split into training, validation, and test sets with 15,000, 5,000, and 3,000 samples respectively. There are two versions of CMeEE: CMeEE and CMeEE-V2, which fixes some annotation errors based on the original CMeEE. Researchers are requested to download the dataset from the official homepage of the CBLUE project: https://tianchi.aliyun.com/dataset/95414
提供机构:
阿里云天池
创建时间:
2023-01-13
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
中文医学命名实体识别数据集(CMeEE)是一个专注于医学领域的命名实体识别数据集,包含九大类医学实体,如疾病、临床表现、药物等,总计超过23,000个实体类型实例。数据集规模较大,提供15,000条训练数据、5,000条验证数据和3,000条测试数据,总字数达220万,适用于医学文本信息抽取任务,并有两个版本以优化标注质量。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务