Emanuel/UD_Portuguese-Bosque

Name: Emanuel/UD_Portuguese-Bosque
Creator: Emanuel
Published: 2022-10-25 08:54:18
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Emanuel/UD_Portuguese-Bosque

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由AutoNLP自动处理，用于项目pos-tag-bosque，主要涉及葡萄牙语（pt）的词性标注任务。数据集包含标签和词汇的序列，每个样本展示了词汇及其对应的词性标签。数据集被分为训练集和验证集，分别包含8328和476个样本。

提供机构：

Emanuel

原始信息汇总

AutoNLP Dataset for project: pos-tag-bosque

数据集描述

该数据集由AutoNLP自动处理，用于项目pos-tag-bosque。

语言

数据集的语言BCP-47代码为pt。

数据集结构

数据实例

数据集的一个样本如下：

json [ { "tags": [ 5, 7, 0 ], "tokens": [ "Um", "revivalismo", "refrescante" ] }, { "tags": [ 5, 11, 11, 11, 3, 5, 7, 1, 5, 7, 0, 12 ], "tokens": [ "O", "7", "e", "Meio", "u00e9", "um", "ex-libris", "de", "a", "noite", "algarvia", "." ] } ]

数据字段

数据集包含以下字段（也称为“特征”）：

json { "tags": "Sequence(feature=ClassLabel(num_classes=17, names=[ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X], names_file=None, id=None), length=-1, id=None)", "tokens": "Sequence(feature=Value(dtype=string, id=None), length=-1, id=None)" }

数据分割

该数据集被分为训练集和验证集。分割大小如下：

分割名称	样本数量
train	8328
valid	476

5,000+

优质数据集

54 个

任务类型

进入经典数据集