liaad/Bosque_PT-PT
收藏Hugging Face2023-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/liaad/Bosque_PT-PT
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Bosque Part of Speech PT-PT,主要用于葡萄牙语的词性标注任务。数据集包含tokens、lemmas和pos_tags三个特征,均为字符串序列。数据集分为训练集和测试集,分别包含9071和576个示例。数据集的任务类别是token-classification,语言为葡萄牙语(pt),标签包括pos、pos-tagging和part-of-speech。
该数据集名为Bosque Part of Speech PT-PT,主要用于葡萄牙语的词性标注任务。数据集包含tokens、lemmas和pos_tags三个特征,均为字符串序列。数据集分为训练集和测试集,分别包含9071和576个示例。数据集的任务类别是token-classification,语言为葡萄牙语(pt),标签包括pos、pos-tagging和part-of-speech。
提供机构:
liaad
原始信息汇总
数据集概述
许可证
- MIT
数据集信息
特征
- tokens: 字符串序列
- lemmas: 字符串序列
- pos_tags: 字符串序列
分割
- train:
- 字节数: 5033815
- 样本数: 9071
- test:
- 字节数: 286364
- 样本数: 576
大小
- 下载大小: 1758940
- 数据集大小: 5320179
配置
- default:
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*
任务类别
- 词性标注 (token-classification)
语言
- 葡萄牙语 (pt)
标签
- pos
- pos-tagging
- part-of-speech
名称
- Bosque Part of Speech PT-PT



