jfrei/GPTNERMED
收藏Hugging Face2023-10-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jfrei/GPTNERMED
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自GPTNERMED项目的带有注释实体(`Medikation`、`Dosis`、`Diagnose`)的合成德语句子。句子和注释均未经过医学专业人士的验证,因此该数据集不是黄金标准数据集。数据集包含9,845个句子(SpaCy分词器为121,027个标记,GPT分词器为245,107个标记),标签包括药物、剂量和诊断三类。数据集结构为训练集、测试集和开发集,比例为80%、10%和10%。每个样本包含句子文本和对应的NER标签,标签包括字符级别的起始和结束索引以及标签类别。
提供机构:
jfrei
原始信息汇总
GPTNERMED 数据集概述
数据集描述
- 数据集名称: GPTNERMED
- 语言: 德语
- 数据创建者: 机器生成
- 多语言性: 单语种
- 大小类别: 1K<n<10K
- 源数据集: 原始数据
- 标签: 生物学、生物医学、医学、临床
- 任务类别: 标记分类
- 任务ID: 命名实体识别
数据集摘要
该数据集包含从 GPTNERMED 项目中生成的德语句子,并带有注释的实体(Medikation, Dosis, Diagnose)。这些句子和注释未经医学专业人员手动验证,因此该数据集不是黄金标准数据集。
数据集包含 9,845 个句子(由 SpaCy Tokenizer 分词为 121,027 个标记,由 GPT tokenizer 分词为 245,107 个标记),具有以下标签:
| 标签 | 计数 | #Tokens (SpaCy) |
|---|---|---|
| Medikation | 9868 | 10138 |
| Dosis | 7547 | 15845 |
| Diagnose | 5996 | 7656 |
数据集结构
数据集的训练/测试/开发分割(80%,10%,10%)如下:
<-- train: 0.8 --><-- test: 0.1 --><-- dev: 0.1 -->
分割是任意选择的,因为数据加载器需要分割配置。所有样本句子在来源上是同质的,也可以进行其他方式的分割。
每个样本是一个句子及其文本(属性 sentence)和相应的 NER 标签(属性 ner_labels / 标签列表)。每个 NER 标签条目都有一个字符级别的起始和结束索引(属性 start, stop)和一个标签类别(属性 ner_class)。



