cantemist-ner
收藏Hugging Face2026-02-07 更新2026-02-09 收录
下载链接:
https://huggingface.co/datasets/IIC/cantemist-ner
下载链接
链接失效反馈官方服务:
资源简介:
CANTEMIST 是一个西班牙语肿瘤学临床病例报告的手工标注数据集,专门用于癌症文本挖掘研究。该数据集包含 1301 份西班牙语临床病例报告,其中肿瘤形态学提及由临床专家手动标注并映射到受控术语(eCIE-O 编码,即西班牙语版 ICD-O)。数据集分为训练集(501 文档)、开发集(500 文档)和测试集(300 文档),原始数据以 Brat 格式分发。
主要特点包括:
1. 数据格式:四列 CONLL 格式文件(词形、原始文件名、跨度、IOB 标签)
2. 标注体系:采用 B-MORFOLOGIA_NEOPLASIA 和 I-MORFOLOGIA_NEOPLASIA 的 IOB 标注方案
3. 数据内容:涵盖各种癌症类型(实体肿瘤、血液恶性肿瘤、神经内分泌癌等)的临床表现、检查、诊断和治疗信息
4. 质量保证:由癌症相关领域博士进行标注,并由医学专家定期核查
该数据集由巴塞罗那超级计算中心文本挖掘单元创建,西班牙数字化与人工智能国务秘书处资助,采用 CC-BY-4.0 许可协议,主要支持西班牙语生物医学文本的命名实体识别(NER)任务。
提供机构:
Instituto de Ingeniería del Conocimiento
创建时间:
2026-02-07
搜集汇总
数据集介绍

构建方式
在生物医学信息学领域,高质量的标注语料对于训练精准的自然语言处理模型至关重要。CANTEMIST-NER数据集的构建源于西班牙癌症文本挖掘共享任务,其语料选自1301份西班牙语肿瘤临床病例报告,涵盖了从儿童到老年不同年龄段、多种肿瘤类型的复杂临床场景。构建过程中,临床专家遵循严格的标注指南,对肿瘤形态学术语进行人工标注,并映射至西班牙版国际疾病分类肿瘤学编码体系。为确保标注质量,标注工作由具备癌症研究背景的科学家执行,并由资深医学专家定期审核与疑难病例咨询,最终形成包含训练集、验证集和测试集的标准化数据集。
特点
该数据集在临床文本挖掘领域展现出鲜明的专业特性,专注于西班牙语肿瘤形态学的命名实体识别任务。其标注体系采用BIO格式,区分肿瘤形态学实体的起始与内部成分,标签设计精细且符合临床术语规范。语料规模适中,包含近五万条标注实例,均衡覆盖训练、验证与测试需求,支持模型稳健评估。数据集不仅提供原始文本与标注的对应,还整合了实体在原文中的位置信息,便于进行跨格式转换与深入分析。作为西班牙语生物医学文本资源的重要补充,该数据集填补了该语言在肿瘤学实体识别方面的空白。
使用方法
该数据集适用于命名实体识别模型的训练与评估,尤其服务于西班牙语临床文本信息提取研究。使用者可通过加载标准化的CONLL格式文件,直接获取分列的词汇、文档标识、实体跨度与IOB标签。在模型开发流程中,建议先利用训练集进行参数学习,再通过验证集调整超参数,最终在独立测试集上评估性能。数据集兼容主流自然语言处理框架,可便捷地集成至基于Transformer或循环神经网络的管道中。研究人员还可依据实体映射信息,进一步探索临床编码与术语归一化等衍生任务,以拓展其在智慧医疗中的应用维度。
背景与挑战
背景概述
在生物医学信息学领域,西班牙语临床文本的癌症相关实体识别研究长期面临资源匮乏的挑战。CANTEMIST-NER数据集由巴塞罗那超级计算中心的文本挖掘单元于2020年创建,作为癌症文本挖掘共享任务的核心资源,旨在推动西班牙语肿瘤学临床报告中的命名实体识别技术发展。该数据集收录了1301份西班牙语肿瘤临床病例报告,由临床专家手动标注肿瘤形态学术语,并将其映射至eCIE-O标准化编码体系。这一工作不仅填补了西班牙语生物医学自然语言处理资源的空白,也为开发跨语言临床信息提取模型提供了重要基础,显著促进了西班牙语医疗人工智能应用的研究进程。
当前挑战
该数据集致力于解决西班牙语临床文本中肿瘤形态学命名实体识别的核心问题,其挑战主要体现在领域专业性与语言复杂性两方面。肿瘤形态学术语具有高度专业化和多变性,同一临床概念可能通过不同短语表达,且常包含拉丁词根与复合结构,增加了实体边界划分与归一化的难度。在构建过程中,标注工作面临临床知识深度依赖的挑战,需要病理学专家持续介入以处理复杂病例,并制定细致的标注指南以确保跨标注者的一致性。此外,临床文本中存在的缩写、非标准表述及上下文依赖特征,进一步提升了高质量标注语料构建的技术门槛。
常用场景
经典使用场景
在生物医学信息学领域,西班牙语临床文本的命名实体识别是提升医疗数据处理效率的关键环节。CANTEMIST数据集作为专门针对西班牙语肿瘤学临床病例报告的标注语料,其最经典的使用场景在于训练和评估命名实体识别模型,以自动识别文本中提及的肿瘤形态学术语,如“腺癌”或“未分化癌”等实体。该数据集通过精细的IOB标注体系,为模型提供了从原始临床报告中抽取关键病理信息的标准化框架,广泛应用于学术竞赛和模型基准测试中,推动了西班牙语临床自然语言处理技术的发展。
解决学术问题
CANTEMIST数据集主要解决了生物医学文本挖掘中跨语言资源不足的学术研究问题。长期以来,英语主导的临床文本数据集在自然语言处理研究中占据主导地位,而西班牙语等非英语资源的匮乏限制了相关模型在多语言医疗环境中的应用。该数据集通过提供高质量、专家标注的西班牙语肿瘤学报告,填补了这一空白,使研究人员能够开发针对特定语言的命名实体识别系统,促进临床术语标准化和编码自动化,从而提升癌症文本挖掘的准确性与可扩展性,对全球健康信息学研究的均衡发展具有深远意义。
衍生相关工作
CANTEMIST数据集的发布催生了多项经典研究工作,尤其是在跨语言生物医学自然语言处理领域。基于该数据集,研究者开发了如BioBERT的西班牙语变体等预训练语言模型,专门针对临床实体识别任务进行优化。此外,该数据集作为共享任务的核心资源,激发了多团队在命名实体识别与概念归一化方面的算法创新,例如结合深度学习和规则方法的混合系统。这些衍生工作不仅扩展了数据集的学术影响力,还为构建多语言临床信息提取管道奠定了坚实基础,推动了全球癌症文本挖掘技术的协同进步。
以上内容由遇见数据集搜集并总结生成



