five

classla/ssj500k

收藏
Hugging Face2022-10-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/ssj500k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含斯洛文尼亚语的7432个训练样本、1164个验证样本和893个测试样本,用于词性标注、词形还原、命名实体识别和句法分析等任务。每个样本包含句子ID、词列表、词形列表、词性标签列表等多种特征,并提供ner、upos和ud三种数据集配置。
提供机构:
classla
原始信息汇总

数据集概述

基本信息

  • 语言: 斯洛文尼亚语 (sl)
  • 许可证: CC-BY-SA-4.0

任务类别

  • 词元分类

具体任务

  • 词形还原
  • 命名实体识别
  • 句法分析
  • 词性标注

标签

  • 结构预测
  • 分词
  • 依存句法分析

数据集组成

  • 训练集: 7432样本
  • 验证集: 1164样本
  • 测试集: 893样本

样本特征

  • 句子ID (sent_id)
  • 词元列表 (tokens)
  • 词形列表 (lemmas)
  • Multext-East标签列表 (xpos_tags)
  • UPOS标签列表 (upos_tags)
  • 形态特征列表 (feats)
  • IOB标签列表 (iob_tags)
  • 通用依存标签列表 (uds)

数据集配置

  • ner
  • upos
  • ud
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作