CMeEE|医疗实体识别数据集|自然语言处理数据集
收藏OpenDataLab2025-04-05 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CMeEE
下载链接
链接失效反馈资源简介:
CMeEE数据集主要用于医疗实体识别任务。此次任务共标注了938份档案、47,194句,包括504儿科常见病、7,085身体部位、12,907临床表现、4,354医疗程序等9类医疗实体。医学文本的命名实体分为九类,包括: 疾病 (dis),临床表现 (sym),药物 (dru),医疗设备 (equ),医疗程序 (pro),身体 (bod),医学检查项目 (ite),微生物学 (mic),部门 (部门)。标签之前,文章会自动分段,并且所有医疗实体都已正确分段。训练、验证和测试集分别是15,000、5,000和3,000条目。数据集来自CHIP2020学术评比大赛,由 “北京大学” 、 “郑州大学” 、 “鹏城实验室” 联合提供。
提供机构:
OpenDataLab
创建时间:
2023-05-15
