five

liaad/Propbank-BR

收藏
Hugging Face2024-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/liaad/Propbank-BR
下载链接
链接失效反馈
官方服务:
资源简介:
Propbank BR数据集是一个用于语义角色标注(Semantic Role Labeling, SRL)任务的数据集,包含葡萄牙语文本。数据集提供了两个配置:default和flatten。default配置包含tokens和srl_frames特征,srl_frames进一步包含frames和verb。flatten配置包含tokens、verb和frames特征,frames特征是一个序列,包含多个类标签。数据集分为train和test两个分割,分别包含不同的字节数和示例数。

Propbank BR数据集是一个用于语义角色标注(Semantic Role Labeling, SRL)任务的数据集,包含葡萄牙语文本。数据集提供了两个配置:default和flatten。default配置包含tokens和srl_frames特征,srl_frames进一步包含frames和verb。flatten配置包含tokens、verb和frames特征,frames特征是一个序列,包含多个类标签。数据集分为train和test两个分割,分别包含不同的字节数和示例数。
提供机构:
liaad
原始信息汇总

数据集概述

基本信息

  • 语言: 葡萄牙语
  • 许可证: MIT
  • 任务类别: 词性标注
  • 数据集名称: Propbank BR

数据集配置

默认配置

  • 配置名称: default
  • 特征:
    • tokens: 字符串序列
    • srl_frames: 列表
      • frames: 字符串序列
      • verb: 字符串
  • 分割:
    • 训练集:
      • 字节数: 1633224
      • 样本数: 3163
    • 测试集:
      • 字节数: 63813
      • 样本数: 143
  • 下载大小: 390134
  • 数据集大小: 1697037

扁平化配置

  • 配置名称: flatten
  • 特征:
    • tokens: 字符串序列
    • verb: 字符串
    • frames: 序列
      • class_label:
        • 名称:
          • 0: B-A0
          • 1: B-A1
          • 2: B-A2
          • 3: B-A3
          • 4: B-A4
          • 5: B-AM-ADV
          • 6: B-AM-CAU
          • 7: B-AM-DIR
          • 8: B-AM-DIS
          • 9: B-AM-EXT
          • 10: B-AM-LOC
          • 11: B-AM-MNR
          • 12: B-AM-NEG
          • 13: B-AM-PNC
          • 14: B-AM-PRD
          • 15: B-AM-REC
          • 16: B-AM-TMP
          • 17: B-C-A0
          • 18: B-C-A1
          • 19: B-C-A2
          • 20: B-C-A3
          • 21: B-C-AM-ADV
          • 22: B-C-AM-CAU
          • 23: B-C-AM-DIS
          • 24: B-C-AM-EXT
          • 25: B-C-AM-LOC
          • 26: B-C-AM-MNR
          • 27: B-C-AM-NEG
          • 28: B-C-AM-PRD
          • 29: B-C-AM-TMP
          • 30: B-C-V
          • 31: B-V
          • 32: I-A0
          • 33: I-A1
          • 34: I-A2
          • 35: I-A3
          • 36: I-A4
          • 37: I-AM-ADV
          • 38: I-AM-CAU
          • 39: I-AM-DIR
          • 40: I-AM-DIS
          • 41: I-AM-EXT
          • 42: I-AM-LOC
          • 43: I-AM-MNR
          • 44: I-AM-NEG
          • 45: I-AM-PNC
          • 46: I-AM-PRD
          • 47: I-AM-REC
          • 48: I-AM-TMP
          • 49: I-C-A0
          • 50: I-C-A1
          • 51: I-C-A2
          • 52: I-C-A3
          • 53: I-C-AM-ADV
          • 54: I-C-AM-CAU
          • 55: I-C-AM-LOC
          • 56: I-C-AM-MNR
          • 57: I-C-AM-PRD
          • 58: I-C-AM-TMP
          • 59: I-C-V
          • 60: O
  • 分割:
    • 训练集:
      • 字节数: 2316383
      • 样本数: 5536
    • 测试集:
      • 字节数: 88301
      • 样本数: 237
  • 下载大小: 482192
  • 数据集大小: 2404684

数据文件配置

  • 默认配置:
    • 训练集: data/train-*
    • 测试集: data/test-*
  • 扁平化配置:
    • 训练集: flatten/train-*
    • 测试集: flatten/test-*

标签

  • 语义角色标注
  • SRL
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作