tner/ontonotes5|自然语言处理数据集|命名实体识别数据集
收藏hugging_face2022-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tner/ontonotes5
下载链接
链接失效反馈资源简介:
Ontonotes5是一个用于命名实体识别(NER)任务的数据集,主要来源于新闻领域。该数据集包含18种不同的实体类型,如`CARDINAL`、`DATE`、`PERSON`、`NORP`、`GPE`、`LAW`、`PERCENT`、`ORDINAL`、`MONEY`、`WORK_OF_ART`、`FAC`、`TIME`、`QUANTITY`、`PRODUCT`、`LANGUAGE`、`ORG`、`LOC`、`EVENT`。数据集的规模在10K到100K之间,属于单语言(英语)数据集。数据集的结构包括训练集、验证集和测试集,分别包含59924、8528和8262个实例。
提供机构:
tner
原始信息汇总
数据集概述
- 名称: Ontonotes5
- 领域: 新闻
- 任务类别: 命名实体识别(Named-Entity Recognition, NER)
- 数据集大小: 10K<n<100K
- 语言: 英语
- 多语言性: 单语
- 许可证: 其他
数据集详情
- 实体类型:
CARDINAL,DATE,PERSON,NORP,GPE,LAW,PERCENT,ORDINAL,MONEY,WORK_OF_ART,FAC,TIME,QUANTITY,PRODUCT,LANGUAGE,ORG,LOC,EVENT - 数据集结构:
- 数据实例: 包含
tokens和tags字段,用于标记文本中的实体。 - 标签ID: 提供详细的标签与ID映射,用于NER任务的标注。
- 数据实例: 包含
数据集分割
| 名称 | 训练 | 验证 | 测试 |
|---|---|---|---|
| Ontonotes5 | 59924 | 8528 | 8262 |
引用信息
@inproceedings{hovy-etal-2006-ontonotes, title = "{O}nto{N}otes: The 90{%} Solution", author = "Hovy, Eduard and Marcus, Mitchell and Palmer, Martha and Ramshaw, Lance and Weischedel, Ralph", booktitle = "Proceedings of the Human Language Technology Conference of the {NAACL}, Companion Volume: Short Papers", month = jun, year = "2006", address = "New York City, USA", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N06-2015", pages = "57--60", }
AI搜集汇总
数据集介绍

构建方式
tner/ontonotes5数据集是在T-NER项目框架下,基于Ontonotes语料库构建的命名实体识别数据集。该数据集的构建采用结构化标注方式,将文本中的每个单词标注为对应的实体类别,涵盖了新闻领域的多种实体类型,如人名、地点、组织等,共计8类实体。数据集由训练集、验证集和测试集三部分组成,分别包含59924、8528和8262个样本。
特点
tner/ontonotes5数据集具有以下特点:一是数据来源权威,基于Ontonotes语料库,保证了数据质量;二是实体类型丰富,覆盖了新闻领域的多个实体类别;三是数据规模适中,便于研究者在有限计算资源下进行模型训练和评估。
使用方法
使用tner/ontonotes5数据集时,研究者可首先通过提供的label2id字典将实体类别映射为数字标签,然后根据数据集的结构,将文本数据与标签对应起来,输入至模型中进行训练。此外,数据集提供了训练集、验证集和测试集,可用于模型训练、参数调整以及最终性能的评估。
背景与挑战
背景概述
Ontonotes5数据集是在自然语言处理领域具有重要影响力的资源,其创建可追溯至2006年,由Eduard Hovy、Mitchell Marcus等研究人员共同开发。该数据集依托于Ontonotes项目,专注于新闻领域,涵盖了多种实体类型,如人名、地点、组织、事件等,为实体识别研究提供了丰富的标注语料。作为自然语言处理领域的基础数据集之一,Ontonotes5对实体识别、关系抽取等任务的发展产生了深远影响。
当前挑战
Ontonotes5数据集在构建和应用过程中面临的挑战主要包括:一是数据标注的准确性问题,尽管覆盖了多种实体类型,但标注错误在所难免,这直接关系到模型训练的质量;二是数据集规模有限,尽管对于学术研究而言已足够,但在实际应用中可能面临扩展性的挑战;三是实体类型的多样性带来的模型泛化问题,模型在特定类型上可能表现出色,但在其他类型上效果则不尽如人意。
常用场景
经典使用场景
在自然语言处理领域中,tner/ontonotes5数据集被广泛用于命名实体识别(NER)任务,其经典的使用场景在于从新闻文本中准确识别并标注出具有特定意义的实体,如人名、地点、组织、时间等。通过该数据集,研究者能够训练出能够理解并提取文本中关键信息的模型。
实际应用
在实际应用中,tner/ontonotes5数据集可用于新闻聚合平台的信息抽取,自动构建新闻摘要,以及搜索引擎中的内容优化等场景。这些应用能够提高信息处理的自动化水平,增强用户获取信息的效率。
衍生相关工作
基于tner/ontonotes5数据集,研究者们衍生出了众多相关工作,包括实体识别模型的改进、跨语言实体识别、实体链接等领域的探索。这些工作进一步推动了自然语言处理技术的发展,拓展了实体识别的研究边界。
以上内容由AI搜集并总结生成
