ontonotes5

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/extraordinarylab/ontonotes5

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于命名实体识别的数据集，包含训练集、验证集和测试集三个部分。每个样本由tokens和对应的ner_tags组成，其中tokens是文本的序列，ner_tags是实体标签的序列。数据集共有59924个训练样本，8528个验证样本和8262个测试样本。数据集总下载大小为4.7MB，总数据量为19.5MB。实体标签包括人物、组织、地点、时间、作品等多种类型。

This is a dataset for Named Entity Recognition (NER), which is divided into three subsets: training set, validation set, and test set. Each sample consists of a sequence of tokens and a corresponding sequence of ner_tags, where tokens represent the text sequence and ner_tags refer to the entity label sequence. The dataset contains 59,924 training samples, 8,528 validation samples, and 8,262 test samples. The total download size of the dataset is 4.7 MB, and the total data volume is 19.5 MB. The entity labels cover multiple categories such as person, organization, location, time, and work.

创建时间：

2025-10-21

原始信息汇总

数据集概述

基本信息

数据集名称: ontonotes5
存储位置: https://huggingface.co/datasets/extraordinarylab/ontonotes5
下载大小: 4,709,310 字节
数据集大小: 20,102,077 字节

数据特征

特征字段:
- tokens: 字符串序列
- ner_tags: 字符串序列

数据划分

训练集:
- 样本数量: 59,924
- 数据大小: 15,762,413 字节
验证集:
- 样本数量: 8,528
- 数据大小: 2,134,519 字节
测试集:
- 样本数量: 8,262
- 数据大小: 2,205,145 字节

命名实体标签类别

CARDINAL, DATE, EVENT, FAC, GPE, LANGUAGE, LAW, LOC, MONEY, NORP, ORDINAL, ORG, PERCENT, PERSON, PRODUCT, QUANTITY, TIME, WORK_OF_ART

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模标注语料库的构建对实体识别任务至关重要。Ontonotes5数据集通过跨文档对齐和人工标注相结合的方式，从新闻、博客、对话等多种文本来源中提取语言单元，并系统标注了18种实体类型，包括人物、地点、组织等通用类别以及法律、艺术作品等专业领域实体。该过程采用分层标注策略，确保实体边界和类型的一致性，最终形成包含训练集、验证集和测试集的标准化分割，为研究提供了坚实的语料基础。

特点

作为多领域实体识别研究的标杆数据集，Ontonotes5的显著特征体现在其广泛的实体覆盖范围和高质量的标注体系。数据集囊括了从基数词到法律条文等18种细粒度实体类型，每种类型均经过严格的交叉验证。其语料来源横跨新闻通讯与社交媒体等多元文体，既包含规范书面语也涉及口语化表达，这种多样性使模型能适应不同语境下的实体识别需求。数据规模的均衡分布与标注深度共同构成了该数据集在自然语言理解任务中的独特价值。

使用方法

对于实体识别模型的开发与评估，研究者可通过加载标准数据分割直接开展实验。训练集包含近六万个标注实例，用于模型参数学习；验证集八千余条数据协助超参数调优；测试集八千余条样本则作为最终性能评估基准。典型使用流程包括对tokens序列进行嵌入表示，将ner_tags转换为数值标签，并采用序列标注架构进行端到端训练。该数据集与主流深度学习框架高度兼容，支持从基线模型到最新算法的系统性比较研究。

背景与挑战

背景概述

OntoNotes 5.0数据集由宾夕法尼亚大学计算机与信息科学系于2013年主导构建，作为跨语言结构化语义标注资源的重要里程碑，其核心目标在于解决自然语言处理领域中命名实体识别与语义角色标注的统一建模难题。该数据集融合了英语、汉语及阿拉伯语三种语言的新闻、对话及博客等多类型文本，通过系统化标注18类实体类型与谓词论元结构，显著推动了信息抽取与跨语言语义解析技术的发展，成为评估实体链接与关系抽取模型性能的基准资源之一。

当前挑战

在领域问题层面，该数据集需应对多语言环境下实体类型歧义消解的复杂性，例如“APPLE”作为机构与水果的语义冲突，以及嵌套实体与跨句指代关系的联合解析难题。构建过程中，标注一致性成为主要障碍，不同语言文化背景下的时间表达式与法律术语需人工校准；同时，新闻与口语语料的语法差异导致谓词论元结构标注成本激增，低资源语言如阿拉伯语的形态变化进一步加大了语义角色标注的跨语言对齐难度。

常用场景

经典使用场景

在自然语言处理领域，OntoNotes5数据集作为大规模多语言语料库，其经典使用场景集中于命名实体识别任务。该数据集通过标注18种实体类型，如人物、组织、地点等，为模型训练提供了丰富的语义信息。研究者常利用其结构化标注数据，构建端到端的实体识别系统，以提升模型在复杂文本中的实体边界检测和分类能力。

实际应用

该数据集的实际价值体现在智能信息抽取系统中，例如新闻媒体自动化摘要、金融风险实体监控等领域。基于OntoNotes5训练的模型能够从非结构化文本中精准提取机构名称、时间表达式等关键信息，为商业智能分析和司法文书处理提供了可靠的技术支撑。

衍生相关工作

以OntoNotes5为基石，学术界衍生出多项经典工作，例如基于跨任务联合训练的端到端实体识别框架，以及融合语法结构的神经网络模型。这些研究不仅深化了多任务学习理论，还催生了BERT-MRC等融合预训练技术的实体标注范式，持续推动着语义解析技术的发展。

以上内容由遇见数据集搜集并总结生成