CCKS数据集

github2024-06-20 更新2024-07-09 收录

下载链接：

https://github.com/Icarus501/EMR-NER-RoFormerV2

下载链接

链接失效反馈

官方服务：

资源简介：

CCKS数据集旨在从给定的电子病历文本文档中识别和提取临床实体。目标是识别并将这些实体提及分类到预定义的类别中，如疾病、治疗和检查。

The CCKS dataset is designed to identify and extract clinical entities from given electronic medical record text documents. Its objective is to recognize these entity mentions and classify them into predefined categories such as diseases, treatments, and examinations.

创建时间：

2024-06-19

原始信息汇总

医疗实体识别与知识图谱关系分析数据集

数据集概述

该数据集旨在从电子病历（EMR）文本文档中识别和提取临床实体。目标是识别并将这些实体提及分类到预定义的类别中，如疾病、治疗和检查。

实体类别

疾病与诊断：医学定义的疾病及医生对病因、病理生理、分类和分期的临床判断。
检查：影像检查（X光、CT、MR、PETCT等）、血管造影、超声和心电图。为避免与手术操作重叠，其他诊断程序如胃镜和结肠镜不包括在内。
检验：在实验室进行的物理或化学检查。具体指实验室部门进行的临床实验室检查，不包括免疫组织化学和其他广泛的实验室检查。
手术：医生作为主要手术治疗手段进行的身体部位切除或缝合的程序。
药物：用于疾病治疗的具体化学物质。
解剖部位：人体中发生疾病、症状和体征的解剖位置。

数据格式

每行数据是一个JSON对象，包含originalText和entities两个键，分别表示原始文本和实体列表。entities是一个列表，每个元素表示一个实体。

训练数据示例

心 B-TESTIMAGE 脏 I-TESTIMAGE 彩 I-TESTIMAGE 超 I-TESTIMAGE ： O 右 B-ANATOMY 房 I-ANATOMY 、 O 右 B-ANATOMY 室 I-ANATOMY 稍 O 增 O 大 O ， O E B-TESTLAB F I-TESTLAB 正 O 常 O 。 O

注意事项

使用制表符（" "）分隔单词和标签。
使用空行分隔句子。
文件以两个换行符结束。

数据统计

可以使用statistic.py查看句子长度和数量的信息。

搜集汇总

数据集介绍

构建方式

CCKS数据集的构建旨在从电子病历（EMR）文本中识别和提取临床实体。该数据集通过预定义的类别，如疾病、治疗和检查，对实体提及进行分类。具体而言，数据集包括疾病与诊断、检查、测试、手术、药物和解剖部位等类别。每条数据以JSON对象形式存储，包含原始文本和实体列表。训练数据经过预处理，使用制表符分隔词和标签，空白行分隔句子，并以两个换行符结束文件。

特点

CCKS数据集的特点在于其专注于中文电子病历的实体识别，涵盖了临床实践中常见的多种实体类型。数据集采用JSON格式存储，便于解析和处理。此外，数据集的预处理步骤确保了数据的一致性和标准化，便于模型训练和评估。通过使用制表符和空白行进行分隔，数据集在结构上保持了清晰和简洁。

使用方法

使用CCKS数据集时，首先需替换数据集文件，并根据需要调整路径配置。接着，删除旧的类别集文件，并根据实际情况调整模型结构和参数。在完成这些步骤后，进行调试并开始模型训练。数据集的统计信息可通过运行statistic.py查看，有助于调整maxlen参数。最终，通过训练和评估，可以实现对中文电子病历中临床实体的准确识别。

背景与挑战

背景概述

CCKS数据集是为从中文电子病历（EMR）文本中识别和提取临床实体而设计的。其核心研究问题在于将这些实体提及分类为预定义的类别，如疾病、治疗和检查。该数据集由主要研究人员或机构开发，旨在通过识别和分类这些实体，提高电子病历文本的自动化处理能力，从而对医疗信息学领域产生深远影响。

当前挑战

CCKS数据集在构建过程中面临多项挑战。首先，电子病历文本的复杂性和多样性使得实体识别任务异常复杂。其次，数据集需要处理多种医学术语和专业词汇，这要求模型具备高度的领域适应性。此外，数据集的标注工作需要专业医学知识，确保标注的准确性和一致性。最后，模型的训练和优化过程中，如何平衡模型的准确性和计算效率也是一个重要挑战。

常用场景

经典使用场景

CCKS数据集在医学实体识别与知识图谱关系分析领域中具有经典应用。该数据集主要用于从中文电子病历（EMR）文本中识别和提取临床实体，如疾病、治疗、检查等。通过预定义的类别，数据集能够将这些实体提及进行分类，从而为医学研究和临床决策提供基础数据支持。

衍生相关工作

基于CCKS数据集，许多相关研究工作得以展开。例如，研究人员开发了基于改进的BiLSTM-CRF模型的医学实体识别系统，结合RoFormerV2模型，显著提升了实体识别的准确性和效率。此外，该数据集还促进了医学知识图谱的构建和关系分析，为医疗领域的智能化应用提供了坚实的基础。

数据集最近研究