classla/ssj500k
收藏Hugging Face2022-10-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/ssj500k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含斯洛文尼亚语的7432个训练样本、1164个验证样本和893个测试样本,用于词性标注、词形还原、命名实体识别和句法分析等任务。每个样本包含句子ID、词列表、词形列表、词性标签列表等多种特征,并提供ner、upos和ud三种数据集配置。
提供机构:
classla
原始信息汇总
数据集概述
基本信息
- 语言: 斯洛文尼亚语 (sl)
- 许可证: CC-BY-SA-4.0
任务类别
- 词元分类
具体任务
- 词形还原
- 命名实体识别
- 句法分析
- 词性标注
标签
- 结构预测
- 分词
- 依存句法分析
数据集组成
- 训练集: 7432样本
- 验证集: 1164样本
- 测试集: 893样本
样本特征
- 句子ID (sent_id)
- 词元列表 (tokens)
- 词形列表 (lemmas)
- Multext-East标签列表 (xpos_tags)
- UPOS标签列表 (upos_tags)
- 形态特征列表 (feats)
- IOB标签列表 (iob_tags)
- 通用依存标签列表 (uds)
数据集配置
- ner
- upos
- ud



