Emanuel/UD_Portuguese-Bosque
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Emanuel/UD_Portuguese-Bosque
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由AutoNLP自动处理,用于项目pos-tag-bosque,主要涉及葡萄牙语(pt)的词性标注任务。数据集包含标签和词汇的序列,每个样本展示了词汇及其对应的词性标签。数据集被分为训练集和验证集,分别包含8328和476个样本。
提供机构:
Emanuel
原始信息汇总
AutoNLP Dataset for project: pos-tag-bosque
数据集描述
该数据集由AutoNLP自动处理,用于项目pos-tag-bosque。
语言
数据集的语言BCP-47代码为pt。
数据集结构
数据实例
数据集的一个样本如下:
json [ { "tags": [ 5, 7, 0 ], "tokens": [ "Um", "revivalismo", "refrescante" ] }, { "tags": [ 5, 11, 11, 11, 3, 5, 7, 1, 5, 7, 0, 12 ], "tokens": [ "O", "7", "e", "Meio", "u00e9", "um", "ex-libris", "de", "a", "noite", "algarvia", "." ] } ]
数据字段
数据集包含以下字段(也称为“特征”):
json { "tags": "Sequence(feature=ClassLabel(num_classes=17, names=[ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X], names_file=None, id=None), length=-1, id=None)", "tokens": "Sequence(feature=Value(dtype=string, id=None), length=-1, id=None)" }
数据分割
该数据集被分为训练集和验证集。分割大小如下:
| 分割名称 | 样本数量 |
|---|---|
| train | 8328 |
| valid | 476 |



