pharmaco-ner

Name: pharmaco-ner
Creator: Instituto de Ingeniería del Conocimiento
Published: 2026-02-07 01:32:21
License: 暂无描述

Hugging Face2026-02-07 更新2026-02-09 收录

下载链接：

https://huggingface.co/datasets/IIC/pharmaco-ner

下载链接

链接失效反馈

官方服务：

资源简介：

PharmaCoNER 是一个手动分类的西班牙临床病例研究数据集，源自西班牙临床病例语料库 (SPACCC)。该数据集包含 396,988 个单词和 1,000 个临床病例，随机分为训练集（500 例）、开发集（250 例）和测试集（250 例），分别对应 8,129、3,787 和 3,952 个标注句子。数据集采用 Brat 格式，包含四个实体类型的标注：NORMALIZABLES、NO_NORMALIZABLES、PROTEINAS 和 UNCLEAR。该数据集专为命名实体识别 (NER) 任务设计，适用于生物医学和临床领域的自然语言处理研究。数据集的标注由领域专家完成，遵循了 BioCreative CHEMDNER 和 GPRO 轨道的指南，并针对西班牙语临床文档的特点进行了调整。数据集以 CC Attribution 4.0 International 许可证发布，由西班牙数字化和人工智能国务秘书处 (SEDIA) 资助。

提供机构：

Instituto de Ingeniería del Conocimiento

创建时间：

2026-02-07

搜集汇总

数据集介绍

构建方式

在生物医学信息抽取领域，西班牙语临床文本的命名实体识别资源相对稀缺。PharmaCoNER数据集的构建源于对西班牙临床病例语料库（SPACCC）的系统性采样，该语料库整合了来自SciELO开放获取电子图书馆的医学出版物。研究团队从SPACCC中随机抽取了1000份临床病例，涵盖肿瘤学、泌尿学、心脏病学等多个医学学科，以确保化学物质与药物实体的多样性。所有实体标注均由执业医师和药物化学专家手工完成，严格遵循了从BioCreative CHEMDNER与GPRO轨道指南翻译并适配的标注框架，并通过多轮标注一致性分析确保高质量的标注结果。最终数据集以Brat格式原始发布，并转换为四列CONLL格式，包含训练集、验证集和测试集，分别对应500、250和250份临床病例。

特点

该数据集专为西班牙语生物医学命名实体识别任务设计，其核心特点体现在实体类型的精细划分上。标注体系包含四大类别：可标准化实体（NORMALIZABLES）、不可标准化实体（NO_NORMALIZABLES）、蛋白质（PROTEINAS）以及模糊实体（UNCLEAR），并采用BIO标注格式以区分实体的起始与内部位置。数据规模共计约39.7万词，包含15,868条已标注句子，划分为8,129条训练句、3,787条验证句与3,952条测试句，为模型训练与评估提供了充分资源。所有文本均源自真实的临床病例报告，语言风格专业且领域覆盖广泛，有效反映了临床实践中的实体表达多样性。数据集以CC BY 4.0协议开放，支持学术与工业界的自由使用与共享。

使用方法

该数据集主要用于训练与评估西班牙语临床文本中的命名实体识别模型。使用者可通过HuggingFace平台直接加载数据集，其结构已适配为标准的token分类任务格式，包含'tokens'与'ner_tags'字段，便于与Transformers等深度学习库集成。典型工作流程包括：利用训练集微调预训练语言模型（如BERT的西班牙语变体），在验证集上进行超参数调优与早期停止，最终在测试集上评估模型对四类实体的识别性能。数据以句子级实例提供，每例包含词元序列及对应的IOB标签，可直接用于序列标注任务。研究人员还可参考原始Brat格式文件进行更细致的跨度分析，或将其与多语言生物医学语料进行对比研究，以推动西班牙语临床自然语言处理工具的发展。

背景与挑战

背景概述

PharmaCoNER数据集于2019年由巴塞罗那超级计算中心的文本挖掘单元主导创建，旨在推动西班牙语生物医学文本的命名实体识别研究。该数据集源自西班牙临床病例语料库，涵盖了肿瘤学、泌尿学、心脏病学等多学科领域的临床病例报告，共包含1000个病例和近40万词语料。其核心研究问题聚焦于从西班牙语临床文本中自动识别药理物质、化合物及蛋白质等实体，以弥补非英语生物医学自然语言处理资源的不足。该数据集的发布显著促进了西班牙语临床信息提取技术的发展，并为跨语言医学人工智能模型提供了重要基础。

当前挑战

在领域问题层面，PharmaCoNER旨在解决西班牙语临床文本中药物与蛋白质实体识别的挑战，这包括处理医学术语的高度专业性、实体名称的变体表达以及临床叙述的复杂句法结构。构建过程中的挑战主要涉及标注准则的跨语言适配，需将英语生物医学标注规范转化为西班牙语，并针对临床文档特点进行修订；同时，为确保标注质量，项目通过迭代的标注一致性分析和专家间一致性评估，协调执业医师与药物化学专家的标注差异，以达成高标准的标注一致性。

常用场景

经典使用场景

在生物医学自然语言处理领域，西班牙语临床文本的实体识别一直面临资源匮乏的挑战。PharmaCoNER数据集作为首个面向西班牙语临床病例的命名实体识别语料库，其经典应用场景聚焦于训练和评估生物医学实体抽取模型。该数据集源自西班牙临床病例语料库，涵盖肿瘤学、泌尿学、心脏病学等多学科内容，为模型提供了丰富的药物、化合物及蛋白质实体标注，支持序列标注任务，尤其在BERT等预训练语言模型的微调过程中发挥关键作用，推动了西班牙语临床文本信息提取技术的发展。

衍生相关工作

围绕PharmaCoNER数据集，衍生出一系列经典研究工作。例如，在BioNLP-OST 2019共享任务中，该数据集作为基准推动了多团队在西班牙语药物实体识别上的算法竞赛，催生了基于BiLSTM-CRF、Transformer等架构的优化模型。后续研究进一步将其与跨语言迁移学习结合，开发了适用于低资源语言的生物医学NLP工具。此外，基于该标注体系，学者们扩展了实体链接、关系抽取等任务，构建了更完整的西班牙语临床文本处理管道，持续丰富了生物医学语言资源的生态体系。

数据集最近研究