five

bigbio/ggponc2

收藏
Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/ggponc2
下载链接
链接失效反馈
官方服务:
资源简介:
GGPONC项目旨在为NLP研究人员提供一个可自由分发的德语医学文本语料库。临床指南特别适合创建此类语料库,因为它们不包含受保护的健康信息(PHI),这使它们与其他类型的医学文本区分开来。GGPONC 2.0版本包含30个德国肿瘤学指南,共计187万个词汇,由7名医学生在6个月内使用INCEpTION平台手动标注完成。这使得GGPONC 2.0成为目前最大的可自由分发的德语医学文本语料库。标注的实体包括发现(诊断/病理学、其他发现)、物质(临床药物、营养素/身体物质、外部物质)和程序(治疗性、诊断性),以及这些实体的规范。总共创建了超过20万个实体标注。此外,还标注了片段关系以明确指示德语文本中常见的省略协调名词短语。

GGPONC项目旨在为NLP研究人员提供一个可自由分发的德语医学文本语料库。临床指南特别适合创建此类语料库,因为它们不包含受保护的健康信息(PHI),这使它们与其他类型的医学文本区分开来。GGPONC 2.0版本包含30个德国肿瘤学指南,共计187万个词汇,由7名医学生在6个月内使用INCEpTION平台手动标注完成。这使得GGPONC 2.0成为目前最大的可自由分发的德语医学文本语料库。标注的实体包括发现(诊断/病理学、其他发现)、物质(临床药物、营养素/身体物质、外部物质)和程序(治疗性、诊断性),以及这些实体的规范。总共创建了超过20万个实体标注。此外,还标注了片段关系以明确指示德语文本中常见的省略协调名词短语。
提供机构:
bigbio
原始信息汇总

GGPONC2 数据集概述

基本信息

  • 语言: 德语
  • 名称: GGPONC2
  • 多语言性: 单语种
  • 任务: 命名实体识别 (NER)

数据集描述

  • 目标: 提供一个可自由分发的德语医学文本语料库,特别适用于NLP研究。
  • 内容: 包含30个德语肿瘤学指南,总计1.87百万个词汇。
  • 注释: 由7名医学学生通过INCEpTION平台进行完全手动注释,历时6个月,超过1200小时的工作量。
  • 注释实体: 包括发现(诊断/病理学、其他发现)、物质(临床药物、营养/体物质、外部物质)和程序(治疗性、诊断性),以及这些实体的规格。
  • 注释数量: 超过200,000个实体注释。
  • 额外注释: 标记了片段关系,以明确指示德语文本中常见的省略协调名词短语。

数据集规模

  • 注释工作量: 超过1200小时
  • 实体注释数量: 超过200,000个

引用信息

@inproceedings{borchert-etal-2022-ggponc, title = "{GGPONC} 2.0 - The {G}erman Clinical Guideline Corpus for Oncology: Curation Workflow, Annotation Policy, Baseline {NER} Taggers", author = "Borchert, Florian and Lohr, Christina and Modersohn, Luise and Witt, Jonas and Langer, Thomas and Follmann, Markus and Gietzelt, Matthias and Arnrich, Bert and Hahn, Udo and Schapranow, Matthieu-P.", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.389", pages = "3650--3660", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作