doushabao4766/ccks_2019_ner_k_V3_wc_bioes

Name: doushabao4766/ccks_2019_ner_k_V3_wc_bioes
Creator: doushabao4766
Published: 2023-05-26 11:36:52
License: 暂无描述

Hugging Face2023-05-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/doushabao4766/ccks_2019_ner_k_V3_wc_bioes

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: int64 - name: tokens sequence: string - name: ner_tags sequence: class_label: names: '0': O '1': B-DISEASE '2': B-TESTIMAGE '3': B-TESTLAB '4': B-OPERATION '5': B-DRUG '6': B-ANATOMY '7': I-DISEASE '8': I-TESTIMAGE '9': I-TESTLAB '10': I-OPERATION '11': I-DRUG '12': I-ANATOMY '13': E-DISEASE '14': E-TESTIMAGE '15': E-TESTLAB '16': E-OPERATION '17': E-DRUG '18': E-ANATOMY '19': S-DISEASE '20': S-TESTIMAGE '21': S-TESTLAB '22': S-OPERATION '23': S-DRUG '24': S-ANATOMY - name: knowledge dtype: string - name: token_words sequence: sequence: string - name: knowledge_words sequence: sequence: string splits: - name: train num_bytes: 46556437 num_examples: 7180 - name: test num_bytes: 17770411 num_examples: 2787 - name: validation num_bytes: 11692351 num_examples: 1864 download_size: 13451536 dataset_size: 76019199 --- # Dataset Card for "ccks_2019_ner_k_V3_wc_bioes" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征项： - 名称：id，数据类型：64位整数（int64） - 名称：tokens，类型：分词标记（Token）字符串序列 - 名称：ner_tags，类型：命名实体识别标签序列，注：标签前缀B、I、E、S分别对应实体起始（Begin）、内部（Inside）、结束（End）与单实体（Single，即实体仅包含一个分词标记）标记，其类别映射规则如下： '0': O（非实体） '1': B-DISEASE（疾病实体起始标记） '2': B-TESTIMAGE（影像检查实体起始标记） '3': B-TESTLAB（检验指标实体起始标记） '4': B-OPERATION（手术/操作实体起始标记） '5': B-DRUG（药物实体起始标记） '6': B-ANATOMY（人体解剖结构实体起始标记） '7': I-DISEASE（疾病实体内部标记） '8': I-TESTIMAGE（影像检查实体内部标记） '9': I-TESTLAB（检验指标实体内部标记） '10': I-OPERATION（手术/操作实体内部标记） '11': I-DRUG（药物实体内部标记） '12': I-ANATOMY（人体解剖结构实体内部标记） '13': E-DISEASE（疾病实体结束标记） '14': E-TESTIMAGE（影像检查实体结束标记） '15': E-TESTLAB（检验指标实体结束标记） '16': E-OPERATION（手术/操作实体结束标记） '17': E-DRUG（药物实体结束标记） '18': E-ANATOMY（人体解剖结构实体结束标记） '19': S-DISEASE（单实体疾病标记） '20': S-TESTIMAGE（单实体影像检查标记） '21': S-TESTLAB（单实体检验指标标记） '22': S-OPERATION（单实体手术/操作标记） '23': S-DRUG（单实体药物标记） '24': S-ANATOMY（单实体人体解剖结构标记） - 名称：knowledge，数据类型：字符串 - 名称：token_words，类型：嵌套字符串序列 - 名称：knowledge_words，类型：嵌套字符串序列数据集划分： - 训练集（train）：字节数46556437，样本数目7180 - 测试集（test）：字节数17770411，样本数目2787 - 验证集（validation）：字节数11692351，样本数目1864 下载总大小：13451536 字节数据集总存储大小：76019199 字节 --- # 「ccks_2019_ner_k_V3_wc_bioes」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

doushabao4766

原始信息汇总

数据集概述

数据集名称

名称: ccks_2019_ner_k_V3_wc_bioes

数据集特征

id: 整数类型 (int64)
tokens: 字符串序列
ner_tags: 标签序列，包含以下类别：
- O
- B-DISEASE
- B-TESTIMAGE
- B-TESTLAB
- B-OPERATION
- B-DRUG
- B-ANATOMY
- I-DISEASE
- I-TESTIMAGE
- I-TESTLAB
- I-OPERATION
- I-DRUG
- I-ANATOMY
- E-DISEASE
- E-TESTIMAGE
- E-TESTLAB
- E-OPERATION
- E-DRUG
- E-ANATOMY
- S-DISEASE
- S-TESTIMAGE
- S-TESTLAB
- S-OPERATION
- S-DRUG
- S-ANATOMY
knowledge: 字符串类型
token_words: 字符串序列
knowledge_words: 字符串序列

数据集分割

训练集:
- 大小: 46556437 字节
- 示例数量: 7180
测试集:
- 大小: 17770411 字节
- 示例数量: 2787
验证集:
- 大小: 11692351 字节
- 示例数量: 1864

数据集大小

下载大小: 13451536 字节
总大小: 76019199 字节

搜集汇总

数据集介绍

构建方式

在医学自然语言处理领域，实体识别是关键任务之一。该数据集ccks_2019_ner_k_V3_wc_bioes的构建，是通过整合临床文本中的实体信息，如疾病、检查图像、检验、手术、药物和解剖结构等，采用生物医学标注框架BIOES进行标注，确保实体边界的精确划分。数据集包含 tokens、ner_tags等字段，其中ner_tags字段采用序列标注的方式，将实体标注为B（开始）、I（中间）、E（结束）、S（单独）以及O（非实体）。经过精心设计的构建流程，该数据集为研究者提供了丰富的标注数据，以供模型训练与评估。

特点

该数据集显著的特点在于，它融合了大量的真实世界临床文本，并提供了详尽的实体标注信息，涵盖了多种医学实体类型。其标注体系采用BIOES格式，相较于传统的BIO标注，能够更准确地处理实体嵌套和并列的情况。此外，数据集分为训练集、测试集和验证集，方便研究者在不同的阶段对模型进行训练和评估。数据集的大小和分布合理，能够满足大规模机器学习模型的训练需求。

使用方法

使用该数据集时，研究者首先需要了解其数据结构，包括id、tokens、ner_tags等字段的含义。数据集可以通过HuggingFace的datasets库进行下载和加载，支持Python编程环境。加载后，研究者可以使用数据集提供的标注信息进行模型训练，如命名实体识别模型。同时，数据集还提供了知识字段，可能包含实体相关的额外信息，有助于模型的进一步优化。在模型训练过程中，研究者应关注模型的性能指标，如准确率、召回率和F1分数，以评估模型在实体识别任务上的表现。

背景与挑战

背景概述

在自然语言处理领域中，实体识别（NER）是一项关键任务，它旨在从文本中识别出具有特定意义的实体。ccks_2019_ner_k_V3_wc_bioes数据集，创建于2019年，由清华大学等机构的研究人员共同研发。该数据集针对中文临床文本，主要解决的是生物医学文本中的实体识别问题，其核心研究问题是如何准确识别出文本中的疾病、检查图像、实验室检测、手术、药物和解剖学等实体类型。该数据集在生物医学文本处理领域产生了显著的影响，推动了实体识别技术的发展。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：首先，生物医学领域的专业术语复杂，实体类型繁多，为标注带来困难；其次，实体之间的界限并非总是清晰，尤其是当实体以不同形式出现在文本中时；最后，构建一个全面且具有挑战性的测试集，以评估模型在真实世界应用中的性能，同样是一大挑战。此外，该数据集解决的领域问题——生物医学实体识别，面临着如何处理长文本、实体嵌套以及实体类型多样等挑战。

常用场景

经典使用场景

在自然语言处理领域，实体识别（NER）任务旨在识别文本中具有特定意义的实体。该数据集doushabao4766/ccks_2019_ner_k_V3_wc_bioes，专为生物医学文本实体识别设计，包含疾病、检查影像、实验室检查、手术、药物和解剖学等类别。其经典使用场景在于，研究者通过训练模型以识别生物医学文献中的关键实体，从而支持生物医学信息的抽取和知识库构建。

衍生相关工作

基于该数据集，已经衍生出多项相关工作，如疾病预测模型、药物相互作用分析工具等。这些工作不仅推动实体识别技术的发展，也为生物医学领域的知识发现提供了新的方法和工具，进一步拓展了该数据集的应用边界。

数据集最近研究