jfrei/GPTNERMED

Name: jfrei/GPTNERMED
Creator: jfrei
Published: 2023-10-08 22:05:18
License: 暂无描述

Hugging Face2023-10-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jfrei/GPTNERMED

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自GPTNERMED项目的带有注释实体（`Medikation`、`Dosis`、`Diagnose`）的合成德语句子。句子和注释均未经过医学专业人士的验证，因此该数据集不是黄金标准数据集。数据集包含9,845个句子（SpaCy分词器为121,027个标记，GPT分词器为245,107个标记），标签包括药物、剂量和诊断三类。数据集结构为训练集、测试集和开发集，比例为80%、10%和10%。每个样本包含句子文本和对应的NER标签，标签包括字符级别的起始和结束索引以及标签类别。

提供机构：

jfrei

原始信息汇总

GPTNERMED 数据集概述

数据集描述

数据集名称: GPTNERMED
语言: 德语
数据创建者: 机器生成
多语言性: 单语种
大小类别: 1K<n<10K
源数据集: 原始数据
标签: 生物学、生物医学、医学、临床
任务类别: 标记分类
任务ID: 命名实体识别

数据集摘要

该数据集包含从 GPTNERMED 项目中生成的德语句子，并带有注释的实体（Medikation, Dosis, Diagnose）。这些句子和注释未经医学专业人员手动验证，因此该数据集不是黄金标准数据集。

数据集包含 9,845 个句子（由 SpaCy Tokenizer 分词为 121,027 个标记，由 GPT tokenizer 分词为 245,107 个标记），具有以下标签：

标签	计数	#Tokens (SpaCy)
Medikation	9868	10138
Dosis	7547	15845
Diagnose	5996	7656

数据集结构

数据集的训练/测试/开发分割（80%，10%，10%）如下： <-- train: 0.8 --><-- test: 0.1 --><-- dev: 0.1 --> 分割是任意选择的，因为数据加载器需要分割配置。所有样本句子在来源上是同质的，也可以进行其他方式的分割。

每个样本是一个句子及其文本（属性 sentence）和相应的 NER 标签（属性 ner_labels / 标签列表）。每个 NER 标签条目都有一个字符级别的起始和结束索引（属性 start, stop）和一个标签类别（属性 ner_class）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集