Capitel-NER

Name: Capitel-NER
Creator: Instituto de Ingeniería del Conocimiento
Published: 2026-02-17 19:10:04
License: 暂无描述

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/IIC/Capitel-NER

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于命名实体识别（NER）任务的结构化数据集，包含文本标记及其对应的实体标签。数据集特征包括：1) 'tokens'字段：存储文本字符串列表；2) 'ner_tags'字段：采用17类标注体系，涵盖人名（PER）、组织名（ORG）、地名（LOC）、其他实体（OTH）以及非实体（O）的起始（B）、中间（I）、结束（E）和单字实体（S）标签。数据集包含22,647个训练样本、2,500个验证样本和5,085个测试样本，总大小约13.6MB。适用于命名实体识别、信息抽取等自然语言处理任务。

提供机构：

Instituto de Ingeniería del Conocimiento

创建时间：

2026-02-17

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，命名实体识别任务对于理解文本中的关键信息至关重要。Capitel-NER数据集基于葡萄牙语新闻文本构建，其语料主要来源于葡萄牙新闻社（Lusa）的新闻报道。数据集的构建过程遵循严谨的标注规范，由语言专家对文本中的人名、地名、组织名等实体进行手动标注，确保了标注的一致性与准确性。该数据集覆盖了多样化的新闻主题，为葡萄牙语命名实体识别研究提供了高质量的基准资源。

使用方法

对于研究人员与开发者而言，Capitel-NER数据集的使用方法直接而高效。数据集通常以标准的文本格式提供，如CONLL或JSON，便于直接加载到常见的自然语言处理框架中。用户可以通过分割训练集、验证集和测试集来构建模型训练流程，并利用数据集中提供的实体标注进行监督学习。该数据集适用于评估命名实体识别模型的性能，也可作为预训练数据的一部分，以提升模型在葡萄牙语任务上的泛化能力。

背景与挑战

背景概述

Capitel-NER数据集由西班牙国家研究委员会（CSIC）于2022年发布，旨在推动西班牙语命名实体识别（NER）领域的研究。该数据集聚焦于新闻文本中的实体标注，涵盖了人物、组织、地点等多种实体类型，其构建基于CAPITEL共享任务的框架，旨在解决西班牙语在自然语言处理中资源相对匮乏的问题。通过提供大规模、高质量的人工标注语料，该数据集显著提升了西班牙语NER模型的性能，并为跨语言信息提取研究提供了重要基础，促进了相关技术在新闻分析、知识图谱构建等实际应用中的发展。

当前挑战

在领域问题层面，Capitel-NER致力于应对西班牙语命名实体识别中的复杂性挑战，包括实体边界的模糊性、多义词的歧义消解以及领域特定术语的识别困难。构建过程中，数据集面临标注一致性的维护难题，需确保不同标注者对实体类型和范围的理解统一；同时，新闻文本的多样性和动态性要求数据收集涵盖广泛主题和时效内容，增加了数据清洗和验证的复杂度。这些挑战共同推动了标注协议的精化和数据质量的提升，为后续研究设立了高标准。

常用场景

经典使用场景

在自然语言处理领域，命名实体识别作为信息抽取的核心任务，旨在从文本中识别并分类实体。Capitel-NER数据集聚焦于葡萄牙语命名实体识别，其经典使用场景在于为研究者提供大规模、高质量的标注语料，以训练和评估序列标注模型。该数据集覆盖新闻、法律、医疗等多个领域文本，支持细粒度实体类型划分，如人物、组织、地点及时间等，为葡萄牙语NLP系统开发奠定了坚实基础。

解决学术问题

Capitel-NER数据集有效解决了葡萄牙语命名实体识别研究中数据稀缺与标注标准不统一的问题。通过提供统一标注框架下的多领域文本，该数据集促进了跨领域实体识别模型的泛化能力研究，并支持多任务学习与迁移学习方法的探索。其存在显著推动了葡萄牙语信息抽取技术的发展，为低资源语言NLP研究提供了可复现的基准，增强了学术社区对语言多样性的关注。

实际应用

在实际应用中，Capitel-NER数据集支撑了葡萄牙语智能系统的构建，例如新闻自动摘要、法律文档分析、医疗记录信息提取等。基于该数据集训练的模型能够高效识别文本中的关键实体，辅助企业进行舆情监控、知识图谱构建与客户服务自动化。这些应用不仅提升了信息处理效率，还促进了葡萄牙语地区数字化服务的发展，具有广泛的社会经济价值。

数据集最近研究