ontonotes/conll2012_ontonotesv5

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ontonotes/conll2012_ontonotesv5

下载链接

链接失效反馈

资源简介：

该数据集是基于OntoNotes 5.0的CoNLL2012共享任务数据，包含阿拉伯语、中文和英语的多语言语料库。数据集的主要任务包括命名实体识别、词性标注、共指消解、句法分析、词形还原和词义消歧等。数据集的结构包括文档ID、句子、词性标注、句法树、谓词词干、谓词框架ID、词义、说话者、命名实体、语义角色标注框架和共指跨度等信息。数据集分为训练集、验证集和测试集，并且有不同版本的数据配置。

This dataset is the CoNLL-2012 Shared Task data based on OntoNotes 5.0, which is a multilingual corpus covering Arabic, Chinese and English. The core tasks of this dataset include named entity recognition, part-of-speech tagging, coreference resolution, syntactic parsing, lemmatization and word sense disambiguation. The dataset structure includes information such as document ID, sentences, part-of-speech tags, syntactic trees, predicate stems, predicate frame IDs, word senses, speakers, named entities, semantic role labeling frames and coreference spans. The dataset is divided into training, validation and test sets, with various data configuration versions available.

提供机构：

ontonotes

原始信息汇总

数据集卡片 for CoNLL2012 共享任务数据基于 OntoNotes 5.0

数据集描述

数据集名称: CoNLL2012 共享任务数据基于 OntoNotes 5.0
多语言性: 多语言
语言: 阿拉伯语, 英语, 中文
许可证: CC BY-NC-ND 4.0
数据集大小分类: 10K<n<100K
源数据: 原始数据
任务类别:
- 命名实体识别
- 词性标注
- 指代消解
- 句法分析
- 词形还原
- 词义消歧
数据集ID: ontonotes-5-0
标签: 语义角色标注

数据集结构

配置名称和特征

english_v4:
- 特征:
  - document_id: 字符串
  - sentences: 列表，包含以下字段:
    - part_id: 整数
    - words: 字符串序列
    - pos_tags: 类别标签序列
    - parse_tree: 字符串
    - predicate_lemmas: 字符串序列
    - predicate_framenet_ids: 字符串序列
    - word_senses: 浮点数序列
    - speaker: 字符串
    - named_entities: 类别标签序列
    - srl_frames: 列表，包含以下字段:
      - verb: 字符串
      - frames: 字符串序列
    - coref_spans: 整数序列，长度为3
- 分割:
  - train: 1940个样本, 112246121字节
  - validation: 222个样本, 14116925字节
  - test: 222个样本, 14709044字节
- 下载大小: 193644139字节
- 数据集大小: 141072090字节
chinese_v4:
- 特征:
  - document_id: 字符串
  - sentences: 列表，包含以下字段:
    - part_id: 整数
    - words: 字符串序列
    - pos_tags: 类别标签序列
    - parse_tree: 字符串
    - predicate_lemmas: 字符串序列
    - predicate_framenet_ids: 字符串序列
    - word_senses: 浮点数序列
    - speaker: 字符串
    - named_entities: 类别标签序列
    - srl_frames: 列表，包含以下字段:
      - verb: 字符串
      - frames: 字符串序列
    - coref_spans: 整数序列，长度为3
- 分割:
  - train: 1391个样本, 77195698字节
  - validation: 172个样本, 10828169字节
  - test: 166个样本, 9585138字节
- 下载大小: 193644139字节
- 数据集大小: 97609005字节
arabic_v4:
- 特征:
  - document_id: 字符串
  - sentences: 列表，包含以下字段:
    - part_id: 整数
    - words: 字符串序列
    - pos_tags: 字符串序列
    - parse_tree: 字符串
    - predicate_lemmas: 字符串序列
    - predicate_framenet_ids: 字符串序列
    - word_senses: 浮点数序列
    - speaker: 字符串
    - named_entities: 类别标签序列
    - srl_frames: 列表，包含以下字段:
      - verb: 字符串
      - frames: 字符串序列
    - coref_spans: 整数序列，长度为3
- 分割:
  - train: 359个样本, 42017761字节
  - validation: 44个样本, 4859292字节
  - test: 44个样本, 4900664字节
- 下载大小: 193644139字节
- 数据集大小: 51777717字节
english_v12:
- 特征:
  - document_id: 字符串
  - sentences: 列表，包含以下字段:
    - part_id: 整数
    - words: 字符串序列
    - pos_tags: 类别标签序列
    - parse_tree: 字符串
    - predicate_lemmas: 字符串序列
    - predicate_framenet_ids: 字符串序列
    - word_senses: 浮点数序列
    - speaker: 字符串
    - named_entities: 类别标签序列
    - srl_frames: 列表，包含以下字段:
      - verb: 字符串
      - frames: 字符串序列
    - coref_spans: 整数序列，长度为3
- 分割:
  - train: 10539个样本, 174173192字节
  - validation: 1370个样本, 24264804字节
  - test: 1200个样本, 18254144字节
- 下载大小: 193644139字节
- 数据集大小: 216692140字节

搜集汇总

数据集介绍

构建方式

该数据集基于OntoNotes 5.0构建，由专家生成标注，涵盖英语、中文和阿拉伯语三种语言。数据集的构建过程包括对原始文本进行句法、语义和话语信息的详细标注，确保了数据的高质量和多样性。具体而言，数据集包含了命名实体识别、词性标注、共指消解、句法分析、词形还原和词义消歧等多项任务的标注信息。

特点

该数据集的主要特点在于其多语言性和多任务性。它不仅支持英语、中文和阿拉伯语三种语言，还涵盖了多种自然语言处理任务，如命名实体识别、词性标注、共指消解等。此外，数据集的标注信息由专家生成，确保了标注的准确性和可靠性。

使用方法

使用该数据集时，用户可以根据需要选择不同的语言配置（如英语_v4、中文_v4、阿拉伯语_v4等）和任务类型。数据集提供了详细的文档和示例，帮助用户理解和使用数据。用户可以通过加载数据集的特定配置，获取包含文档ID、句子、词性标签、句法树、谓词词形、谓词FrameNet ID、词义、命名实体、语义角色标注和共指跨度等信息的实例。

背景与挑战

背景概述

OntoNotes/CoNLL2012_OntoNotesv5数据集是基于OntoNotes 5.0语料库的扩展版本，由专家手动标注，涵盖了多种语言（如英语、中文和阿拉伯语）和多样的文本类型。该数据集在2012年CoNLL共享任务中被广泛使用，主要研究人员和机构包括斯坦福大学和纽约大学等。其核心研究问题涉及命名实体识别、词性标注、共指消解、句法分析等多个自然语言处理任务。该数据集的发布极大地推动了多语言和多任务自然语言处理技术的发展，成为该领域的重要基准数据集。

当前挑战

OntoNotes/CoNLL2012_OntoNotesv5数据集在构建过程中面临多重挑战。首先，多语言数据的整合和标注需要克服语言间的语法和语义差异，确保标注的一致性和准确性。其次，数据集涉及多个复杂的自然语言处理任务，如命名实体识别和共指消解，这些任务本身具有较高的技术难度和计算复杂性。此外，数据集的规模和多样性也带来了存储和处理上的挑战，要求高效的算法和计算资源来处理和分析这些数据。这些挑战不仅影响了数据集的构建，也对其在实际应用中的性能提出了更高的要求。

常用场景

经典使用场景

OntoNotes/CoNLL2012数据集在自然语言处理领域中被广泛用于多种任务，包括命名实体识别（NER）、词性标注（POS）、句法分析、词义消歧和语义角色标注等。其多语言和多领域的特性使其成为训练和评估多任务模型的理想选择。

解决学术问题

该数据集解决了自然语言处理中多个关键的学术问题，如跨语言的命名实体识别、复杂句子的句法解析、以及多语言环境下的词义消歧。其丰富的标注信息为研究者提供了深入探索语言结构和语义关系的宝贵资源。

衍生相关工作

基于OntoNotes/CoNLL2012数据集，研究者们开发了多种先进的自然语言处理模型和算法，如BERT、XLNet等预训练语言模型，这些模型在多项任务上取得了显著的性能提升。此外，该数据集还促进了多语言和跨领域的研究，推动了自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集