sapienzanlp/nounatlas_srl_corpus
收藏数据集概述
数据集基本信息
- 名称: nounatlas_srl_corpus
- 别名: sapienzanlp/nounatlas_srl_corpus, NounAtlas SRL corpus
- 创建者: Sapienza NLP, Sapienza University of Rome
- 关键词: token-classification, English, apache-2.0, 10K - 100K, json, Text, Datasets, Croissant, 🇺🇸 Region: US
- 许可证: Apache-2.0
- URL: https://hf-mirror.com/datasets/sapienzanlp/nounatlas_srl_corpus
数据集描述
- 项目目标: 增强名词性语义角色标注(Nominal Semantic Role Labeling, SRL),通过提供一个综合的名词性谓词库存,组织成语义一致的框架。
- 内容: 包含带有名词性谓词及其相应语义角色的句子标注。
- 子集: 分为训练、开发和测试三个子集。
- 训练集: 22,452 句子
- 开发集: 具体数量未详述
- 测试集: 具体数量未详述
数据格式和结构
-
分布:
-
类型: cr:FileObject
-
名称: repo
-
描述: HF Mirror git 仓库。
-
内容URL: https://hf-mirror.com/datasets/sapienzanlp/nounatlas_srl_corpus/tree/refs%2Fconvert%2Fparquet
-
编码格式: git+https
-
类型: cr:FileSet
-
名称: parquet-files-for-config-default
-
描述: 由 HF Mirror 转换的基础 Parquet 文件(参见:https://hf-mirror.com/docs/datasets-server/parquet)。
-
包含于: repo
-
编码格式: application/x-parquet
-
包含: default//.parquet
-
-
记录集:
-
类型: cr:RecordSet
-
名称: default
-
描述: sapienzanlp/nounatlas_srl_corpus - default 子集
- 3 个分割: train, validation, test
- 3 个跳过的列: words, lemmas, roles
-
字段:
-
类型: cr:Field
-
名称: default/predicate
-
描述: HF Mirror parquet 文件中的 predicate 列。
-
数据类型: sc:Text
-
来源: 文件集 parquet-files-for-config-default,提取列 predicate
-
类型: cr:Field
-
名称: default/predicate_idx
-
描述: HF Mirror parquet 文件中的 predicate_idx 列。
-
数据类型: sc:Integer
-
来源: 文件集 parquet-files-for-config-default,提取列 predicate_idx
-
-
数据集规范
- 符合标准: http://mlcommons.org/croissant/1.0




