ShelterW/chinese_medical_ner
收藏Hugging Face2024-12-06 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/ShelterW/chinese_medical_ner
下载链接
链接失效反馈官方服务:
资源简介:
该README文件介绍了多个医疗领域的命名实体识别(NER)数据集,包括医渡云结构化4K数据集、中药说明书实体识别、中文糖尿病科研文献实体关系数据集DiaKG、中文医疗信息处理评测准CBLUE以及医药领域知识图谱。这些数据集涵盖了疾病和诊断、检查、检验、手术、药物、解剖部位等多种实体类型,并提供了数据集规模、数据来源等详细信息。
The README file provides detailed descriptions of multiple medical-related Named Entity Recognition (NER) datasets. Firstly, it describes the Yidu Cloud Structured 4K dataset and the Named Entity Recognition dataset for Chinese Electronic Medical Records, listing six types of entities: diseases and diagnoses, examinations, tests, surgeries, drugs, and anatomical parts. Secondly, it introduces the Chinese Herbal Medicine Instruction Entity Recognition dataset, which includes 1,000 training sets and 13 types of entities. Then, it mentions the Chinese Diabetes Research Literature Entity Relationship Dataset DiaKG, sourced from 41 Chinese diabetes expert consensus articles, annotating 22,050 medical entities and 6,890 entity relationships. Additionally, it describes the Chinese Medical Information Processing Evaluation Benchmark CBLUE, including the Chinese Medical Named Entity Recognition Dataset CMeEE and the Intelligent Dialogue Diagnosis Dataset IMCS. Finally, it details the Pharmaceutical Domain Knowledge Graph, centered around diseases, with 44,000 entities and 300,000 entity relationships, and lists the Chinese meanings, quantities, and examples of various entities.
提供机构:
ShelterW
搜集汇总
数据集介绍

构建方式
ShelterW/chinese_medical_ner数据集的构建,汇集了多个来源的中文医疗文本,包括医渡云结构化4K数据集、中药说明书实体识别数据集、中文糖尿病科研文献实体关系数据集DiaKG等,涵盖了疾病和诊断、检查、检验、手术、药物、解剖部位等多种医疗实体类型。通过对这些文本进行深入分析和实体标注,构建起一个全面的中文医疗命名实体识别数据集。
特点
该数据集特点显著,不仅包含了丰富的医疗实体类型,还整合了中药说明书、糖尿病科研文献等多样化来源的数据,使得数据集在广度和深度上都有着较高的覆盖度。此外,数据集通过严格的标注和质量控制,确保了实体识别的准确性和可靠性,为中文医疗信息处理领域的研究提供了宝贵的资源。
使用方法
使用ShelterW/chinese_medical_ner数据集时,用户可以依据数据集中的实体类型和标注信息,进行命名实体识别的模型训练和评估。数据集提供的训练集、验证集和测试集,能够满足不同阶段的模型开发需求。同时,用户还可以利用数据集中的实体关系信息,进行更深入的医学知识图谱构建和研究。
背景与挑战
背景概述
ShelterW/chinese_medical_ner数据集,旨在推动中文医疗命名实体识别的研究与应用。该数据集涵盖了疾病和诊断、检查、检验、手术、药物、解剖部位等多种类型的医疗实体。其创建依托于医渡云结构化4K数据集、中药说明书实体识别数据集、中文糖尿病科研文献实体关系数据集DiaKG以及中文医疗信息处理评测准CBLUE等多个数据源,凝聚了医学、数据科学和人工智能领域的智慧结晶。自推出以来,该数据集为中文医疗文本的信息提取与知识图谱构建提供了重要支撑,对于提升医疗信息处理的自动化和智能化水平具有重要影响力。
当前挑战
在数据集构建和应用过程中,研究人员面临了多项挑战。首先,医疗领域的专业性和实体类型的多样性增加了实体识别的难度。其次,数据集在构建过程中,如何保证实体标注的一致性和准确性,以及如何处理医学术语的歧义性,都是必须克服的技术难题。此外,随着医学领域的不断发展,新术语和新实体的涌现对数据集的更新和维护提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,ShelterW/chinese_medical_ner数据集被广泛应用于医疗命名实体识别任务,其经典的使用场景是对中文医疗文本中的疾病、检查、检验、手术、药物及解剖部位等实体进行精确识别,以辅助构建医疗信息抽取系统,进而服务于临床决策支持系统。
实际应用
在实际应用中,ShelterW/chinese_medical_ner数据集可应用于医疗健康平台、智能问诊系统、电子病历系统等,通过识别医疗文本中的关键实体信息,为医生提供辅助诊断参考,优化患者医疗服务体验。
衍生相关工作
基于该数据集,学术界和产业界衍生出了一系列相关工作,如医疗信息抽取、实体关系抽取、医学知识图谱构建等,推动了医疗自然语言处理领域的研究进展,并为医疗健康行业的数字化转型提供了技术支持。
以上内容由遇见数据集搜集并总结生成



