five

PlanTL-GOB-ES/cantemist-ner

收藏
Hugging Face2022-11-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/cantemist-ner
下载链接
链接失效反馈
官方服务:
资源简介:
CANTEMIST数据集是一个包含1301份西班牙语肿瘤临床病例报告的手动分类集合。数据集主要用于命名实体识别(NER)任务,特别是针对肿瘤形态的提及进行标注,并将其映射到受控术语。数据集分为训练集、开发集和测试集,分别包含501、500和300份文档。数据集的标注由临床专家完成,遵循Cantemist指南,并映射到eCIE-O代码。数据集的结构包括四个列的文件,分别表示词形或标点符号、原始BRAT文件名、跨度和IOB标签。数据集的创建目的是为了与类似语言的数据集兼容,并遵循现有的整理指南。数据集的使用有助于开发西班牙语的医学语言模型。
提供机构:
PlanTL-GOB-ES
原始信息汇总

数据集概述

数据集名称: CANTEMIST

描述: 手动分类的西班牙语肿瘤临床病例报告集合,包含1301份病例报告,其中肿瘤形态学提及由临床专家手动标注并映射到受控术语。每个肿瘤形态学提及都链接到eCIE-O代码(西班牙语ICD-O的等效代码)。

语言: 西班牙语(es)

任务: 命名实体识别(NER)

数据集结构:

  • 训练集: 501份文档
  • 开发集: 500份文档
  • 测试集: 300份文档

数据格式: 原始数据集以Brat格式分发。

数据字段:

  • 1st column: 单词形式或标点符号
  • 2nd column: 原始BRAT文件名
  • 3rd column: 跨度
  • 4th column: IOB标签

许可证: CC BY 4.0

数据集创建:

  • 注释过程: 由临床专家根据Cantemist指南手动注释,该指南包含在西班牙语肿瘤临床病例中注释形态学肿瘤的规则,以及将这些注释映射到eCIE-O。
  • 注释者: 临床专家

社会影响: 该语料库有助于开发西班牙语的医学语言模型。

版权信息: 由西班牙国家数字化和人工智能秘书处(SEDIA)版权所有(2022)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作