five

Emanuel/UD_Portuguese-Bosque

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Emanuel/UD_Portuguese-Bosque
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由AutoNLP自动处理,用于项目pos-tag-bosque,主要涉及葡萄牙语(pt)的词性标注任务。数据集包含标签和词汇的序列,每个样本展示了词汇及其对应的词性标签。数据集被分为训练集和验证集,分别包含8328和476个样本。
提供机构:
Emanuel
原始信息汇总

AutoNLP Dataset for project: pos-tag-bosque

数据集描述

该数据集由AutoNLP自动处理,用于项目pos-tag-bosque。

语言

数据集的语言BCP-47代码为pt。

数据集结构

数据实例

数据集的一个样本如下:

json [ { "tags": [ 5, 7, 0 ], "tokens": [ "Um", "revivalismo", "refrescante" ] }, { "tags": [ 5, 11, 11, 11, 3, 5, 7, 1, 5, 7, 0, 12 ], "tokens": [ "O", "7", "e", "Meio", "u00e9", "um", "ex-libris", "de", "a", "noite", "algarvia", "." ] } ]

数据字段

数据集包含以下字段(也称为“特征”):

json { "tags": "Sequence(feature=ClassLabel(num_classes=17, names=[ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X], names_file=None, id=None), length=-1, id=None)", "tokens": "Sequence(feature=Value(dtype=string, id=None), length=-1, id=None)" }

数据分割

该数据集被分为训练集和验证集。分割大小如下:

分割名称 样本数量
train 8328
valid 476
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作