five

doushabao4766/ccks_2019_ner_k_V3_wc_bioes

收藏
Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/doushabao4766/ccks_2019_ner_k_V3_wc_bioes
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: int64 - name: tokens sequence: string - name: ner_tags sequence: class_label: names: '0': O '1': B-DISEASE '2': B-TESTIMAGE '3': B-TESTLAB '4': B-OPERATION '5': B-DRUG '6': B-ANATOMY '7': I-DISEASE '8': I-TESTIMAGE '9': I-TESTLAB '10': I-OPERATION '11': I-DRUG '12': I-ANATOMY '13': E-DISEASE '14': E-TESTIMAGE '15': E-TESTLAB '16': E-OPERATION '17': E-DRUG '18': E-ANATOMY '19': S-DISEASE '20': S-TESTIMAGE '21': S-TESTLAB '22': S-OPERATION '23': S-DRUG '24': S-ANATOMY - name: knowledge dtype: string - name: token_words sequence: sequence: string - name: knowledge_words sequence: sequence: string splits: - name: train num_bytes: 46556437 num_examples: 7180 - name: test num_bytes: 17770411 num_examples: 2787 - name: validation num_bytes: 11692351 num_examples: 1864 download_size: 13451536 dataset_size: 76019199 --- # Dataset Card for "ccks_2019_ner_k_V3_wc_bioes" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息: 特征项: - 名称:id,数据类型:64位整数(int64) - 名称:tokens,类型:分词标记(Token)字符串序列 - 名称:ner_tags,类型:命名实体识别标签序列,注:标签前缀B、I、E、S分别对应实体起始(Begin)、内部(Inside)、结束(End)与单实体(Single,即实体仅包含一个分词标记)标记,其类别映射规则如下: '0': O(非实体) '1': B-DISEASE(疾病实体起始标记) '2': B-TESTIMAGE(影像检查实体起始标记) '3': B-TESTLAB(检验指标实体起始标记) '4': B-OPERATION(手术/操作实体起始标记) '5': B-DRUG(药物实体起始标记) '6': B-ANATOMY(人体解剖结构实体起始标记) '7': I-DISEASE(疾病实体内部标记) '8': I-TESTIMAGE(影像检查实体内部标记) '9': I-TESTLAB(检验指标实体内部标记) '10': I-OPERATION(手术/操作实体内部标记) '11': I-DRUG(药物实体内部标记) '12': I-ANATOMY(人体解剖结构实体内部标记) '13': E-DISEASE(疾病实体结束标记) '14': E-TESTIMAGE(影像检查实体结束标记) '15': E-TESTLAB(检验指标实体结束标记) '16': E-OPERATION(手术/操作实体结束标记) '17': E-DRUG(药物实体结束标记) '18': E-ANATOMY(人体解剖结构实体结束标记) '19': S-DISEASE(单实体疾病标记) '20': S-TESTIMAGE(单实体影像检查标记) '21': S-TESTLAB(单实体检验指标标记) '22': S-OPERATION(单实体手术/操作标记) '23': S-DRUG(单实体药物标记) '24': S-ANATOMY(单实体人体解剖结构标记) - 名称:knowledge,数据类型:字符串 - 名称:token_words,类型:嵌套字符串序列 - 名称:knowledge_words,类型:嵌套字符串序列 数据集划分: - 训练集(train):字节数46556437,样本数目7180 - 测试集(test):字节数17770411,样本数目2787 - 验证集(validation):字节数11692351,样本数目1864 下载总大小:13451536 字节 数据集总存储大小:76019199 字节 --- # 「ccks_2019_ner_k_V3_wc_bioes」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
doushabao4766
原始信息汇总

数据集概述

数据集名称

  • 名称: ccks_2019_ner_k_V3_wc_bioes

数据集特征

  • id: 整数类型 (int64)
  • tokens: 字符串序列
  • ner_tags: 标签序列,包含以下类别:
    • O
    • B-DISEASE
    • B-TESTIMAGE
    • B-TESTLAB
    • B-OPERATION
    • B-DRUG
    • B-ANATOMY
    • I-DISEASE
    • I-TESTIMAGE
    • I-TESTLAB
    • I-OPERATION
    • I-DRUG
    • I-ANATOMY
    • E-DISEASE
    • E-TESTIMAGE
    • E-TESTLAB
    • E-OPERATION
    • E-DRUG
    • E-ANATOMY
    • S-DISEASE
    • S-TESTIMAGE
    • S-TESTLAB
    • S-OPERATION
    • S-DRUG
    • S-ANATOMY
  • knowledge: 字符串类型
  • token_words: 字符串序列
  • knowledge_words: 字符串序列

数据集分割

  • 训练集:
    • 大小: 46556437 字节
    • 示例数量: 7180
  • 测试集:
    • 大小: 17770411 字节
    • 示例数量: 2787
  • 验证集:
    • 大小: 11692351 字节
    • 示例数量: 1864

数据集大小

  • 下载大小: 13451536 字节
  • 总大小: 76019199 字节
搜集汇总
数据集介绍
main_image_url
构建方式
在医学自然语言处理领域,实体识别是关键任务之一。该数据集ccks_2019_ner_k_V3_wc_bioes的构建,是通过整合临床文本中的实体信息,如疾病、检查图像、检验、手术、药物和解剖结构等,采用生物医学标注框架BIOES进行标注,确保实体边界的精确划分。数据集包含 tokens、ner_tags等字段,其中ner_tags字段采用序列标注的方式,将实体标注为B(开始)、I(中间)、E(结束)、S(单独)以及O(非实体)。经过精心设计的构建流程,该数据集为研究者提供了丰富的标注数据,以供模型训练与评估。
特点
该数据集显著的特点在于,它融合了大量的真实世界临床文本,并提供了详尽的实体标注信息,涵盖了多种医学实体类型。其标注体系采用BIOES格式,相较于传统的BIO标注,能够更准确地处理实体嵌套和并列的情况。此外,数据集分为训练集、测试集和验证集,方便研究者在不同的阶段对模型进行训练和评估。数据集的大小和分布合理,能够满足大规模机器学习模型的训练需求。
使用方法
使用该数据集时,研究者首先需要了解其数据结构,包括id、tokens、ner_tags等字段的含义。数据集可以通过HuggingFace的datasets库进行下载和加载,支持Python编程环境。加载后,研究者可以使用数据集提供的标注信息进行模型训练,如命名实体识别模型。同时,数据集还提供了知识字段,可能包含实体相关的额外信息,有助于模型的进一步优化。在模型训练过程中,研究者应关注模型的性能指标,如准确率、召回率和F1分数,以评估模型在实体识别任务上的表现。
背景与挑战
背景概述
在自然语言处理领域中,实体识别(NER)是一项关键任务,它旨在从文本中识别出具有特定意义的实体。ccks_2019_ner_k_V3_wc_bioes数据集,创建于2019年,由清华大学等机构的研究人员共同研发。该数据集针对中文临床文本,主要解决的是生物医学文本中的实体识别问题,其核心研究问题是如何准确识别出文本中的疾病、检查图像、实验室检测、手术、药物和解剖学等实体类型。该数据集在生物医学文本处理领域产生了显著的影响,推动了实体识别技术的发展。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:首先,生物医学领域的专业术语复杂,实体类型繁多,为标注带来困难;其次,实体之间的界限并非总是清晰,尤其是当实体以不同形式出现在文本中时;最后,构建一个全面且具有挑战性的测试集,以评估模型在真实世界应用中的性能,同样是一大挑战。此外,该数据集解决的领域问题——生物医学实体识别,面临着如何处理长文本、实体嵌套以及实体类型多样等挑战。
常用场景
经典使用场景
在自然语言处理领域,实体识别(NER)任务旨在识别文本中具有特定意义的实体。该数据集doushabao4766/ccks_2019_ner_k_V3_wc_bioes,专为生物医学文本实体识别设计,包含疾病、检查影像、实验室检查、手术、药物和解剖学等类别。其经典使用场景在于,研究者通过训练模型以识别生物医学文献中的关键实体,从而支持生物医学信息的抽取和知识库构建。
衍生相关工作
基于该数据集,已经衍生出多项相关工作,如疾病预测模型、药物相互作用分析工具等。这些工作不仅推动实体识别技术的发展,也为生物医学领域的知识发现提供了新的方法和工具,进一步拓展了该数据集的应用边界。
数据集最近研究
最新研究方向
在自然语言处理领域,实体识别技术正日益受到重视。ccks_2019_ner_k_V3_wc_bioes数据集,针对生物医学文本,提供了丰富的实体标注信息,包括疾病、检查图像、实验室检查、手术、药物和解剖学等类别。近期研究聚焦于利用该数据集进行深度学习模型的训练与优化,以提升实体识别的准确性和效率。这些研究不仅推动了生物医学文本挖掘技术的发展,也为临床决策支持和医疗信息处理提供了重要工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作