doushabao4766/ccks_2019_ner_k_V3_wc_bioes
收藏Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/doushabao4766/ccks_2019_ner_k_V3_wc_bioes
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: tokens
sequence: string
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-DISEASE
'2': B-TESTIMAGE
'3': B-TESTLAB
'4': B-OPERATION
'5': B-DRUG
'6': B-ANATOMY
'7': I-DISEASE
'8': I-TESTIMAGE
'9': I-TESTLAB
'10': I-OPERATION
'11': I-DRUG
'12': I-ANATOMY
'13': E-DISEASE
'14': E-TESTIMAGE
'15': E-TESTLAB
'16': E-OPERATION
'17': E-DRUG
'18': E-ANATOMY
'19': S-DISEASE
'20': S-TESTIMAGE
'21': S-TESTLAB
'22': S-OPERATION
'23': S-DRUG
'24': S-ANATOMY
- name: knowledge
dtype: string
- name: token_words
sequence:
sequence: string
- name: knowledge_words
sequence:
sequence: string
splits:
- name: train
num_bytes: 46556437
num_examples: 7180
- name: test
num_bytes: 17770411
num_examples: 2787
- name: validation
num_bytes: 11692351
num_examples: 1864
download_size: 13451536
dataset_size: 76019199
---
# Dataset Card for "ccks_2019_ner_k_V3_wc_bioes"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征项:
- 名称:id,数据类型:64位整数(int64)
- 名称:tokens,类型:分词标记(Token)字符串序列
- 名称:ner_tags,类型:命名实体识别标签序列,注:标签前缀B、I、E、S分别对应实体起始(Begin)、内部(Inside)、结束(End)与单实体(Single,即实体仅包含一个分词标记)标记,其类别映射规则如下:
'0': O(非实体)
'1': B-DISEASE(疾病实体起始标记)
'2': B-TESTIMAGE(影像检查实体起始标记)
'3': B-TESTLAB(检验指标实体起始标记)
'4': B-OPERATION(手术/操作实体起始标记)
'5': B-DRUG(药物实体起始标记)
'6': B-ANATOMY(人体解剖结构实体起始标记)
'7': I-DISEASE(疾病实体内部标记)
'8': I-TESTIMAGE(影像检查实体内部标记)
'9': I-TESTLAB(检验指标实体内部标记)
'10': I-OPERATION(手术/操作实体内部标记)
'11': I-DRUG(药物实体内部标记)
'12': I-ANATOMY(人体解剖结构实体内部标记)
'13': E-DISEASE(疾病实体结束标记)
'14': E-TESTIMAGE(影像检查实体结束标记)
'15': E-TESTLAB(检验指标实体结束标记)
'16': E-OPERATION(手术/操作实体结束标记)
'17': E-DRUG(药物实体结束标记)
'18': E-ANATOMY(人体解剖结构实体结束标记)
'19': S-DISEASE(单实体疾病标记)
'20': S-TESTIMAGE(单实体影像检查标记)
'21': S-TESTLAB(单实体检验指标标记)
'22': S-OPERATION(单实体手术/操作标记)
'23': S-DRUG(单实体药物标记)
'24': S-ANATOMY(单实体人体解剖结构标记)
- 名称:knowledge,数据类型:字符串
- 名称:token_words,类型:嵌套字符串序列
- 名称:knowledge_words,类型:嵌套字符串序列
数据集划分:
- 训练集(train):字节数46556437,样本数目7180
- 测试集(test):字节数17770411,样本数目2787
- 验证集(validation):字节数11692351,样本数目1864
下载总大小:13451536 字节
数据集总存储大小:76019199 字节
---
# 「ccks_2019_ner_k_V3_wc_bioes」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
doushabao4766
原始信息汇总
数据集概述
数据集名称
- 名称: ccks_2019_ner_k_V3_wc_bioes
数据集特征
- id: 整数类型 (int64)
- tokens: 字符串序列
- ner_tags: 标签序列,包含以下类别:
- O
- B-DISEASE
- B-TESTIMAGE
- B-TESTLAB
- B-OPERATION
- B-DRUG
- B-ANATOMY
- I-DISEASE
- I-TESTIMAGE
- I-TESTLAB
- I-OPERATION
- I-DRUG
- I-ANATOMY
- E-DISEASE
- E-TESTIMAGE
- E-TESTLAB
- E-OPERATION
- E-DRUG
- E-ANATOMY
- S-DISEASE
- S-TESTIMAGE
- S-TESTLAB
- S-OPERATION
- S-DRUG
- S-ANATOMY
- knowledge: 字符串类型
- token_words: 字符串序列
- knowledge_words: 字符串序列
数据集分割
- 训练集:
- 大小: 46556437 字节
- 示例数量: 7180
- 测试集:
- 大小: 17770411 字节
- 示例数量: 2787
- 验证集:
- 大小: 11692351 字节
- 示例数量: 1864
数据集大小
- 下载大小: 13451536 字节
- 总大小: 76019199 字节
搜集汇总
数据集介绍

构建方式
在医学自然语言处理领域,实体识别是关键任务之一。该数据集ccks_2019_ner_k_V3_wc_bioes的构建,是通过整合临床文本中的实体信息,如疾病、检查图像、检验、手术、药物和解剖结构等,采用生物医学标注框架BIOES进行标注,确保实体边界的精确划分。数据集包含 tokens、ner_tags等字段,其中ner_tags字段采用序列标注的方式,将实体标注为B(开始)、I(中间)、E(结束)、S(单独)以及O(非实体)。经过精心设计的构建流程,该数据集为研究者提供了丰富的标注数据,以供模型训练与评估。
特点
该数据集显著的特点在于,它融合了大量的真实世界临床文本,并提供了详尽的实体标注信息,涵盖了多种医学实体类型。其标注体系采用BIOES格式,相较于传统的BIO标注,能够更准确地处理实体嵌套和并列的情况。此外,数据集分为训练集、测试集和验证集,方便研究者在不同的阶段对模型进行训练和评估。数据集的大小和分布合理,能够满足大规模机器学习模型的训练需求。
使用方法
使用该数据集时,研究者首先需要了解其数据结构,包括id、tokens、ner_tags等字段的含义。数据集可以通过HuggingFace的datasets库进行下载和加载,支持Python编程环境。加载后,研究者可以使用数据集提供的标注信息进行模型训练,如命名实体识别模型。同时,数据集还提供了知识字段,可能包含实体相关的额外信息,有助于模型的进一步优化。在模型训练过程中,研究者应关注模型的性能指标,如准确率、召回率和F1分数,以评估模型在实体识别任务上的表现。
背景与挑战
背景概述
在自然语言处理领域中,实体识别(NER)是一项关键任务,它旨在从文本中识别出具有特定意义的实体。ccks_2019_ner_k_V3_wc_bioes数据集,创建于2019年,由清华大学等机构的研究人员共同研发。该数据集针对中文临床文本,主要解决的是生物医学文本中的实体识别问题,其核心研究问题是如何准确识别出文本中的疾病、检查图像、实验室检测、手术、药物和解剖学等实体类型。该数据集在生物医学文本处理领域产生了显著的影响,推动了实体识别技术的发展。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:首先,生物医学领域的专业术语复杂,实体类型繁多,为标注带来困难;其次,实体之间的界限并非总是清晰,尤其是当实体以不同形式出现在文本中时;最后,构建一个全面且具有挑战性的测试集,以评估模型在真实世界应用中的性能,同样是一大挑战。此外,该数据集解决的领域问题——生物医学实体识别,面临着如何处理长文本、实体嵌套以及实体类型多样等挑战。
常用场景
经典使用场景
在自然语言处理领域,实体识别(NER)任务旨在识别文本中具有特定意义的实体。该数据集doushabao4766/ccks_2019_ner_k_V3_wc_bioes,专为生物医学文本实体识别设计,包含疾病、检查影像、实验室检查、手术、药物和解剖学等类别。其经典使用场景在于,研究者通过训练模型以识别生物医学文献中的关键实体,从而支持生物医学信息的抽取和知识库构建。
衍生相关工作
基于该数据集,已经衍生出多项相关工作,如疾病预测模型、药物相互作用分析工具等。这些工作不仅推动实体识别技术的发展,也为生物医学领域的知识发现提供了新的方法和工具,进一步拓展了该数据集的应用边界。
数据集最近研究
最新研究方向
在自然语言处理领域,实体识别技术正日益受到重视。ccks_2019_ner_k_V3_wc_bioes数据集,针对生物医学文本,提供了丰富的实体标注信息,包括疾病、检查图像、实验室检查、手术、药物和解剖学等类别。近期研究聚焦于利用该数据集进行深度学习模型的训练与优化,以提升实体识别的准确性和效率。这些研究不仅推动了生物医学文本挖掘技术的发展,也为临床决策支持和医疗信息处理提供了重要工具。
以上内容由遇见数据集搜集并总结生成



