bigbio/ggponc2
收藏Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/ggponc2
下载链接
链接失效反馈官方服务:
资源简介:
GGPONC项目旨在为NLP研究人员提供一个可自由分发的德语医学文本语料库。临床指南特别适合创建此类语料库,因为它们不包含受保护的健康信息(PHI),这使它们与其他类型的医学文本区分开来。GGPONC 2.0版本包含30个德国肿瘤学指南,共计187万个词汇,由7名医学生在6个月内使用INCEpTION平台手动标注完成。这使得GGPONC 2.0成为目前最大的可自由分发的德语医学文本语料库。标注的实体包括发现(诊断/病理学、其他发现)、物质(临床药物、营养素/身体物质、外部物质)和程序(治疗性、诊断性),以及这些实体的规范。总共创建了超过20万个实体标注。此外,还标注了片段关系以明确指示德语文本中常见的省略协调名词短语。
GGPONC项目旨在为NLP研究人员提供一个可自由分发的德语医学文本语料库。临床指南特别适合创建此类语料库,因为它们不包含受保护的健康信息(PHI),这使它们与其他类型的医学文本区分开来。GGPONC 2.0版本包含30个德国肿瘤学指南,共计187万个词汇,由7名医学生在6个月内使用INCEpTION平台手动标注完成。这使得GGPONC 2.0成为目前最大的可自由分发的德语医学文本语料库。标注的实体包括发现(诊断/病理学、其他发现)、物质(临床药物、营养素/身体物质、外部物质)和程序(治疗性、诊断性),以及这些实体的规范。总共创建了超过20万个实体标注。此外,还标注了片段关系以明确指示德语文本中常见的省略协调名词短语。
提供机构:
bigbio
原始信息汇总
GGPONC2 数据集概述
基本信息
- 语言: 德语
- 名称: GGPONC2
- 多语言性: 单语种
- 任务: 命名实体识别 (NER)
数据集描述
- 目标: 提供一个可自由分发的德语医学文本语料库,特别适用于NLP研究。
- 内容: 包含30个德语肿瘤学指南,总计1.87百万个词汇。
- 注释: 由7名医学学生通过INCEpTION平台进行完全手动注释,历时6个月,超过1200小时的工作量。
- 注释实体: 包括发现(诊断/病理学、其他发现)、物质(临床药物、营养/体物质、外部物质)和程序(治疗性、诊断性),以及这些实体的规格。
- 注释数量: 超过200,000个实体注释。
- 额外注释: 标记了片段关系,以明确指示德语文本中常见的省略协调名词短语。
数据集规模
- 注释工作量: 超过1200小时
- 实体注释数量: 超过200,000个
引用信息
@inproceedings{borchert-etal-2022-ggponc, title = "{GGPONC} 2.0 - The {G}erman Clinical Guideline Corpus for Oncology: Curation Workflow, Annotation Policy, Baseline {NER} Taggers", author = "Borchert, Florian and Lohr, Christina and Modersohn, Luise and Witt, Jonas and Langer, Thomas and Follmann, Markus and Gietzelt, Matthias and Arnrich, Bert and Hahn, Udo and Schapranow, Matthieu-P.", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.389", pages = "3650--3660", }



