five

bigbio/cantemist

收藏
Hugging Face2024-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/cantemist
下载链接
链接失效反馈
官方服务:
资源简介:
CANTEMIST数据集包含1301份西班牙语的肿瘤临床病例报告,这些报告中的肿瘤形态学提及被临床专家手动注释并映射到受控术语。每个肿瘤形态学提及都链接到一个eCIE-O代码(西班牙的ICD-O等效代码)。原始数据集以Brat格式分发,并随机分为三个子集:训练集、开发集和测试集,分别包含501、500和300份文档。该数据集设计用于癌症文本挖掘共享任务,包括三个子任务:CANTEMIST-NER(自动发现肿瘤形态学提及)、CANTEMIST-NORM(临床概念规范化或命名实体规范化任务)和CANTEMIST-CODING(为每个文档返回其对应的ICD-O-3代码的排名列表)。

The CANTEMIST dataset consists of 1301 oncological clinical case reports written in Spanish, with tumor morphology mentions manually annotated and mapped by clinical experts to a controlled terminology. Each tumor morphology mention is linked to an eCIE-O code (the Spanish equivalent of ICD-O). The original dataset is distributed in Brat format and was randomly sampled into three subsets: training, development, and test sets, containing 501, 500, and 300 documents, respectively. This dataset was designed for the CANcer TExt Mining Shared Task, which includes three subtasks: CANTEMIST-NER (automatically finding tumor morphology mentions), CANTEMIST-NORM (clinical concept normalization or named entity normalization task), and CANTEMIST-CODING (returning a ranked list of ICD-O-3 codes for each document).
提供机构:
bigbio
原始信息汇总

数据集概述

基本信息

  • 名称: CANTEMIST
  • 语言: 西班牙语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 公开状态: 公开
  • PubMed关联: 否

数据集内容

  • 描述: 包含1301份西班牙语肿瘤临床案例报告,其中肿瘤形态学提及由临床专家手动标注并映射到受控术语。每个肿瘤形态学提及均链接到eCIE-O代码(西班牙的ICD-O等效代码)。
  • 格式: Brat格式
  • 子集: 训练集(501份文档)、开发集(500份文档)和测试集(300份文档)。

任务

  • 命名实体识别 (NER): 自动识别肿瘤形态学提及。
  • 命名实体消歧 (NED): 临床概念规范化,即返回所有肿瘤形态学实体提及及其相应的eCIE-O-3.1代码。
  • 文本分类 (TXTCLASS): 为每份文档返回其对应的ICD-O-3代码的排名列表。

任务详情

  • CANTEMIST-NER: 识别肿瘤形态学提及及其在UTF-8纯文本医学文档中的字符偏移量。
  • CANTEMIST-NORM: 规范化肿瘤形态学提及,包括其eCIE-O-3.1代码。
  • CANTEMIST-CODING: 为每份文档提供ICD-O-3代码的排名列表,涉及多标签分类任务。

联系方式

  • 详细信息: 访问CANTEMIST主页
  • 电子邮件: encargo-pln-life@bsc.es
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作