tomaarsen/conllpp

Name: tomaarsen/conllpp
Creator: tomaarsen
Published: 2023-06-01 11:38:05
License: 暂无描述

Hugging Face2023-06-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tomaarsen/conllpp

下载链接

链接失效反馈

官方服务：

资源简介：

CoNLL++是CoNLL2003 NER数据集的修正版本，其中测试集中5.38%的句子标签已被手动修正。数据集包含训练集、开发集和测试集，主要用于命名实体识别（NER）任务。数据集的字段包括id、document_id、sentence_id、tokens、pos_tags、chunk_tags和ner_tags。数据集的大小为10.26 MB，下载大小为4.85 MB。

提供机构：

tomaarsen

原始信息汇总

数据集概述

名称: CoNLL++
语言: 英语 (en)
许可证: 未知
多语言性: 单语
大小: 10K<n<100K
来源数据集: 扩展自 conll2003
任务类别: 词元分类
任务ID: 命名实体识别
配置名称: conllpp

数据集结构

数据实例

下载大小: 4.85 MB
生成数据集大小: 10.26 MB
总磁盘使用: 15.11 MB

数据字段

id: 字符串类型
tokens: 字符串序列
pos_tags: 分类标签序列，包括 " (0), `` (1), # (2), $ (3), ( (4) 等
chunk_tags: 分类标签序列，包括 O (0), B-ADJP (1), I-ADJP (2), B-ADVP (3), I-ADVP (4) 等
ner_tags: 分类标签序列，包括 O (0), B-PER (1), I-PER (2), B-ORG (3), I-ORG (4) 等

数据分割

名称	训练	验证	测试
conll2003	14041	3250	3453

训练与评估配置

配置: conllpp
任务: 词元分类
任务ID: 实体提取
分割:
- 训练分割: train
- 评估分割: test
列映射:
- tokens: tokens
- ner_tags: tags
指标:
- 类型: seqeval
- 名称: seqeval

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，命名实体识别（NER）是信息抽取的核心任务之一，而高质量标注数据是模型性能的基石。CoNLLpp数据集正是对经典CoNLL2003 NER数据集的精校版本，旨在修正原始测试集中5.38%句子的标注错误。该数据集通过人工专家审查和校正的方式，对CoNLL2003测试集中的标签进行了逐句验证与纠正，例如将误标为B-PER的“CHINA”更正为B-LOC。训练集与开发集则沿用原始CoNLL2003的标注，确保数据完整性的同时，聚焦于提升测试集的标注质量。这种基于专家知识的校正策略，显著降低了数据噪声对模型评估的干扰。

特点

CoNLLpp数据集保留了CoNLL2003的原始结构，包含token、词性标签（pos_tags）、组块标签（chunk_tags）以及NER标签（ner_tags）四类特征，其中NER标签涵盖PER、ORG、LOC、MISC四种实体类型。数据集划分为训练集（14,041句）、验证集（3,250句）和测试集（3,453句），规模适中且分布均衡。其核心特色在于测试集经过人工精校，标签准确率显著提升，为NER模型的性能评估提供了更可靠的基准。此外，数据集还包含文档ID和句子ID字段，便于追踪样本来源，支持细粒度的错误分析与跨文档研究。

使用方法

CoNLLpp可直接通过Hugging Face Datasets库加载，使用`load_dataset('tomaarsen/conllpp')`命令即可获取。数据以序列标注格式呈现，适用于基于Transformer的NER模型训练与评估。使用时需注意，训练集和验证集沿用CoNLL2003的原始标签，而测试集包含修正后的标签，因此推荐将测试集作为模型最终性能的评判标准。用户可结合seqeval等评估工具，计算实体级别的精确率、召回率与F1分数。此外，数据集的词性标签与组块标签支持多任务学习，有助于探索联合建模方法，提升实体识别的鲁棒性。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别（NER）作为一项基础性任务，旨在从非结构化文本中精准识别如人名、地名、组织等特定实体，其性能直接影响到信息抽取、问答系统等下游应用的质量。CoNLL++数据集由Zihan Wang、Jingbo Shang等研究者于2019年提出，源自对经典CoNLL2003 NER数据集的系统性修正。该工作由伊利诺伊大学厄巴纳-香槟分校等机构主导，其核心研究问题在于揭示并纠正广泛使用的基准数据集中存在的标注错误，从而为评估NER模型提供更可靠的测试基准。CoNLL++的发布对相关领域产生了深远影响，它促使研究者重新审视以往模型在CoNLL2003上的真实表现，并为开发更鲁棒的标注方法和噪声学习技术提供了关键数据支撑。

当前挑战

CoNLL++数据集所应对的核心挑战源于其前身CoNLL2003中标注不一致与错误的问题。在领域层面，NER任务长期受困于标注噪声，这些隐性的错误会误导模型学习，导致性能评估失真，CoNLL++通过人工校正测试集中5.38%的句子标签，直接针对这一根本性难题提供了修正方案。在数据集构建过程中，挑战集中于确保校正的准确性与一致性，这要求标注者具备深厚的领域知识，并能审慎辨别如“CHINA”在特定语境下应标记为地点（LOC）而非人物（PER）等细微语义差异。此外，如何系统性地发现并定位原有数据中的错误，以及如何在不引入新偏差的前提下完成修正，同样是构建过程中必须克服的难题。

常用场景

经典使用场景

CoNLL++作为经典命名实体识别（NER）基准数据集CoNLL2003的精校版本，在自然语言处理领域扮演着不可或缺的角色。其最经典的使用场景在于为序列标注模型提供高置信度的训练与评估基准，尤其聚焦于实体边界与类型的精准识别。研究者通常利用其包含的丰富注释信息——包括词性标注、组块标注以及四类实体标签（人名、地名、组织名、其他专名）——来验证模型在细粒度语义理解上的鲁棒性。该数据集通过对测试集中5.38%的句子进行人工修正，有效消除了原始标注中的噪声，从而成为衡量NER系统真实性能的黄金标准。

衍生相关工作

CoNLL++的出现直接催生了多项具有深远影响的经典研究工作。其中最具代表性的当属CrossWeigh框架，它首次提出利用交叉验证机制动态调整训练样本权重，以抑制错误标签对梯度更新的负面影响，该工作发表于EMNLP-IJCNLP 2019。此后，众多研究围绕噪声鲁棒的序列标注模型展开，如基于置信度学习的自动纠错方法、利用预训练语言模型进行标签一致性校验的技术，以及融合外部知识库的实体边界修正策略。这些衍生工作不仅深化了对NER任务本质的理解，还推动了数据质量评估与标注一致性度量等元研究方向的发展，构建了从数据净化到模型优化的完整学术生态。

数据集最近研究