five

classla/reldi_sr

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/reldi_sr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于3,748条塞尔维亚推文,这些推文被分割成句子和词汇,并标注了规范化形式、词元、MULTEXT-East标签(XPOS)、UPOS标签和形态特征,以及命名实体。数据集包含5462个训练样本(句子)、711个验证样本和725个测试样本。每个样本代表一个句子,并包含以下特征:句子ID(sent_id)、词汇列表(tokens)、规范化词汇列表(norms)、词元列表(lemmas)、UPOS标签列表(upos_tags)、MULTEXT-East标签列表(xpos_tags)、形态特征列表(feats)和命名实体IOB标签列表(iob_tags),这些标签被编码为类别标签。
提供机构:
classla
原始信息汇总

数据集概述

基本信息

  • 语言: 塞尔维亚语 (sr)
  • 许可证: 知识共享署名-相同方式共享 4.0 国际 (cc-by-sa-4.0)
  • 任务类别: 其他
  • 任务ID:
    • 词形还原
    • 命名实体识别
    • 词性标注
  • 标签:
    • 结构预测
    • 规范化
    • 分词

数据集内容

  • 数据来源: 3,748条塞尔维亚语推文
  • 处理步骤: 分句、分词,并标注规范化形式、词形、MULTEXT-East标签(XPOS)、UPOS标签、形态特征及命名实体。
  • 样本数量:
    • 训练集: 5462个样本(句子)
    • 验证集: 711个样本
    • 测试集: 725个样本

样本特征

  • 每个样本包含以下特征:
    • 句子ID (sent_id)
    • 分词列表 (tokens)
    • 规范化分词列表 (norms)
    • 词形列表 (lemmas)
    • UPOS标签列表 (upos_tags)
    • MULTEXT-East标签列表 (xpos_tags)
    • 形态特征列表 (feats)
    • 命名实体IOB标签列表 (iob_tags),编码为类别标签
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作