SpeedOfMagic/ontonotes_english

Name: SpeedOfMagic/ontonotes_english
Creator: SpeedOfMagic
Published: 2022-07-01 16:06:06
License: 暂无描述

Hugging Face2022-07-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SpeedOfMagic/ontonotes_english

下载链接

链接失效反馈

官方服务：

资源简介：

ontonotes_english数据集是一个预处理版本，假设是OntoNotes v5.0。数据集中的句子被解包并以行为单位存储，字段名称被重命名以匹配conll2003格式。数据来源于一个私有仓库，该仓库又从另一个未知位置的公共仓库获取数据。数据集没有许可证，但据称没有许可问题。数据集支持的任务包括命名实体识别、共指消解和语义角色标注。数据集的语言为英语，包含训练集、验证集和测试集。数据实例包括tokens和ner_tags字段，ner_tags字段使用BIO标记命名实体。

提供机构：

SpeedOfMagic

原始信息汇总

数据集概述

基本信息

数据集名称: ontonotes_english
语言: 英语
许可: 未知
数据集大小: 10K<n<100K
任务类型:
- 命名实体识别 (Named Entity Recognition)

数据集描述

数据集摘要

这是一个预处理版本的OntoNotes v5.0数据集。数据集中的句子被解包并以行形式存储，字段被重命名以匹配conll2003数据集。数据来源是一个私有仓库，该仓库从另一个未知位置的公共仓库获取数据。由于所有仓库的数据都没有许可证，因此不存在许可问题。

支持的任务和排行榜

命名实体识别 (Named Entity Recognition)
- Named Entity Recognition on Ontonotes v5 (English)

数据结构

数据实例

json { "tokens": ["Well", ",", "the", "Hundred", "Regiments", "Offensive", "was", "divided", "into", "three", "phases", "."], "ner_tags": [0, 0, 29, 30, 30, 30, 0, 0, 0, 27, 0, 0] }

数据字段

tokens (List[str]): 原始数据集中的单词。
ner_tags (List[ClassLabel]): 原始数据集中的命名实体。使用BIO标签表示句子中的命名实体。
- 标签集: datasets.ClassLabel(num_classes=37, names=["O", "B-PERSON", "I-PERSON", "B-NORP", "I-NORP", "B-FAC", "I-FAC", "B-ORG", "I-ORG", "B-GPE", "I-GPE", "B-LOC", "I-LOC", "B-PRODUCT", "I-PRODUCT", "B-DATE", "I-DATE", "B-TIME", "I-TIME", "B-PERCENT", "I-PERCENT", "B-MONEY", "I-MONEY", "B-QUANTITY", "I-QUANTITY", "B-ORDINAL", "I-ORDINAL", "B-CARDINAL", "I-CARDINAL", "B-EVENT", "I-EVENT", "B-WORK_OF_ART", "I-WORK_OF_ART", "B-LAW", "I-LAW", "B-LANGUAGE", "I-LANGUAGE"])

数据分割

训练集 (train)
验证集 (validation)
测试集 (test)

数据集创建

数据来源

数据来自一个私有仓库，该仓库从另一个未知位置的公共仓库获取数据。

许可信息

无许可证

引用信息

bibtex @inproceedings{pradhan-etal-2013-towards, title = "Towards Robust Linguistic Analysis using {O}nto{N}otes", author = {Pradhan, Sameer and Moschitti, Alessandro and Xue, Nianwen and Ng, Hwee Tou and Bj{"o}rkelund, Anders and Uryupina, Olga and Zhang, Yuchen and Zhong, Zhi}, booktitle = "Proceedings of the Seventeenth Conference on Computational Natural Language Learning", month = aug, year = "2013", address = "Sofia, Bulgaria", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W13-3516", pages = "143--152", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集