five

CMeEE|医疗实体识别数据集|自然语言处理数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
医疗实体识别
自然语言处理
下载链接:
https://opendatalab.org.cn/OpenDataLab/CMeEE
下载链接
链接失效反馈
资源简介:
CMeEE数据集主要用于医疗实体识别任务。此次任务共标注了938份档案、47,194句,包括504儿科常见病、7,085身体部位、12,907临床表现、4,354医疗程序等9类医疗实体。医学文本的命名实体分为九类,包括: 疾病 (dis),临床表现 (sym),药物 (dru),医疗设备 (equ),医疗程序 (pro),身体 (bod),医学检查项目 (ite),微生物学 (mic),部门 (部门)。标签之前,文章会自动分段,并且所有医疗实体都已正确分段。训练、验证和测试集分别是15,000、5,000和3,000条目。数据集来自CHIP2020学术评比大赛,由 “北京大学” 、 “郑州大学” 、 “鹏城实验室” 联合提供。
提供机构:
OpenDataLab
创建时间:
2023-05-15
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集