sapienzanlp/nounatlas_srl_corpus

Name: sapienzanlp/nounatlas_srl_corpus
Creator: sapienzanlp
Published: 2024-07-22 07:34:52
License: 暂无描述

Hugging Face2024-07-22 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/sapienzanlp/nounatlas_srl_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

NounAtlas SRL Corpus数据集是NounAtlas项目的一部分，旨在通过提供组织成语义一致框架的名词谓词的综合清单来增强名词性语义角色标注（SRL）。数据集包含训练、开发和测试三个子集，分别包含22,452、2,806和2,806个句子。示例条目展示了句子的谓词、角色、词干和单词的标注情况。注释过程包括将WordNet名词同义词集映射到VerbAtlas框架、生成包含名词谓词的句子以及使用基于Transformer的编码技术传播语义角色。数据集为英文，但框架支持通过利用多语言资源（如BabelNet）扩展到其他语言。数据集采用CC BY-SA 4.0许可证。

The NounAtlas SRL Corpus is part of the NounAtlas project, aiming to enhance Nominal Semantic Role Labeling (SRL) by providing a comprehensive inventory of nominal predicates organized into semantically-coherent frames. The dataset is split into three subsets: training, development, and test, containing 22,452, 2,806, and 2,806 sentences respectively. An example entry illustrates the annotation of predicates, roles, lemmas, and words in sentences. The annotation process involves mapping WordNet nominal synsets to VerbAtlas frames, generating sentences featuring nominal predicates, and propagating semantic roles using Transformer-based encoding techniques. The dataset is in English, but the framework supports potential extension to other languages by leveraging multilingual resources such as BabelNet. The dataset is distributed under the CC BY-SA 4.0 license.

提供机构：

sapienzanlp

原始信息汇总

数据集概述

数据集基本信息

名称: nounatlas_srl_corpus
别名: sapienzanlp/nounatlas_srl_corpus, NounAtlas SRL corpus
创建者: Sapienza NLP, Sapienza University of Rome
关键词: token-classification, English, apache-2.0, 10K - 100K, json, Text, Datasets, Croissant, 🇺🇸 Region: US
许可证: Apache-2.0
URL: https://hf-mirror.com/datasets/sapienzanlp/nounatlas_srl_corpus

数据集描述

项目目标: 增强名词性语义角色标注（Nominal Semantic Role Labeling, SRL），通过提供一个综合的名词性谓词库存，组织成语义一致的框架。
内容: 包含带有名词性谓词及其相应语义角色的句子标注。
子集: 分为训练、开发和测试三个子集。
- 训练集: 22,452 句子
- 开发集: 具体数量未详述
- 测试集: 具体数量未详述

数据格式和结构

分布:
- 类型: cr:FileObject
- 名称: repo
- 描述: HF Mirror git 仓库。
- 内容URL: https://hf-mirror.com/datasets/sapienzanlp/nounatlas_srl_corpus/tree/refs%2Fconvert%2Fparquet
- 编码格式: git+https
- 类型: cr:FileSet
- 名称: parquet-files-for-config-default
- 描述: 由 HF Mirror 转换的基础 Parquet 文件（参见：https://hf-mirror.com/docs/datasets-server/parquet）。
- 包含于: repo
- 编码格式: application/x-parquet
- 包含: default//.parquet
记录集:
- 类型: cr:RecordSet
- 名称: default
- 描述: sapienzanlp/nounatlas_srl_corpus - default 子集
  - 3 个分割: train, validation, test
  - 3 个跳过的列: words, lemmas, roles
- 字段:
  - 类型: cr:Field
  - 名称: default/predicate
  - 描述: HF Mirror parquet 文件中的 predicate 列。
  - 数据类型: sc:Text
  - 来源: 文件集 parquet-files-for-config-default，提取列 predicate
  - 类型: cr:Field
  - 名称: default/predicate_idx
  - 描述: HF Mirror parquet 文件中的 predicate_idx 列。
  - 数据类型: sc:Integer
  - 来源: 文件集 parquet-files-for-config-default，提取列 predicate_idx

数据集规范

符合标准: http://mlcommons.org/croissant/1.0

搜集汇总

数据集介绍

背景与挑战

背景概述

NounAtlas SRL Corpus是一个专注于名词性语义角色标注的数据集，包含28,064个英语句子，分为训练、开发和测试集。数据集通过半自动化方法生成和标注，支持语义角色的自动传播，适用于自然语言处理中的语义分析任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集