five

jfrei/GPTNERMED

收藏
Hugging Face2023-10-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jfrei/GPTNERMED
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自GPTNERMED项目的带有注释实体(`Medikation`、`Dosis`、`Diagnose`)的合成德语句子。句子和注释均未经过医学专业人士的验证,因此该数据集不是黄金标准数据集。数据集包含9,845个句子(SpaCy分词器为121,027个标记,GPT分词器为245,107个标记),标签包括药物、剂量和诊断三类。数据集结构为训练集、测试集和开发集,比例为80%、10%和10%。每个样本包含句子文本和对应的NER标签,标签包括字符级别的起始和结束索引以及标签类别。
提供机构:
jfrei
原始信息汇总

GPTNERMED 数据集概述

数据集描述

  • 数据集名称: GPTNERMED
  • 语言: 德语
  • 数据创建者: 机器生成
  • 多语言性: 单语种
  • 大小类别: 1K<n<10K
  • 源数据集: 原始数据
  • 标签: 生物学、生物医学、医学、临床
  • 任务类别: 标记分类
  • 任务ID: 命名实体识别

数据集摘要

该数据集包含从 GPTNERMED 项目中生成的德语句子,并带有注释的实体(Medikation, Dosis, Diagnose)。这些句子和注释经医学专业人员手动验证,因此该数据集不是黄金标准数据集。

数据集包含 9,845 个句子(由 SpaCy Tokenizer 分词为 121,027 个标记,由 GPT tokenizer 分词为 245,107 个标记),具有以下标签:

标签 计数 #Tokens (SpaCy)
Medikation 9868 10138
Dosis 7547 15845
Diagnose 5996 7656

数据集结构

数据集的训练/测试/开发分割(80%,10%,10%)如下: <-- train: 0.8 --><-- test: 0.1 --><-- dev: 0.1 --> 分割是任意选择的,因为数据加载器需要分割配置。所有样本句子在来源上是同质的,也可以进行其他方式的分割。

每个样本是一个句子及其文本(属性 sentence)和相应的 NER 标签(属性 ner_labels / 标签列表)。每个 NER 标签条目都有一个字符级别的起始和结束索引(属性 start, stop)和一个标签类别(属性 ner_class)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作