classla/setimes_sr

Name: classla/setimes_sr
Creator: classla
Published: 2022-10-25 07:30:04
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/classla/setimes_sr

下载链接

链接失效反馈

官方服务：

资源简介：

SETimes_sr数据集包含86,726个塞尔维亚语标记，这些标记在分词、句子分割、形态句法标记、词形还原、命名实体和依赖语法等多个层面上进行了人工标注。数据集分为训练、验证和测试三个部分，共有3177个训练样本、395个验证样本和319个测试样本。每个样本包含句子ID、句子文本、标记列表、词形列表、MULTEXT-East标签列表、UPOS标签列表、形态特征列表、IOB标签列表和通用依赖关系列表。数据集提供三种配置：ner、upos和ud，默认配置为ner。

提供机构：

classla

原始信息汇总

数据集概述

基本信息

语言: 塞尔维亚语 (sr)
许可证: CC-BY-SA-4.0
任务类别: 其他
任务ID:
- 词形化
- 命名实体识别
- 词性标注
标签:
- 结构预测
- 规范化
- 分词

数据集内容

数据集名称: SETimes_sr 训练语料库
数据量:
- 训练样本: 3177
- 验证样本: 395
- 测试样本: 319
样本特征:
- 句子ID (sent_id)
- 句子文本 (text)
- 词列表 (tokens)
- 词形列表 (lemmas)
- MULTEXT-East 标签列表 (xpos_tags)
- UPOS 标签列表 (upos_tags)
- 形态特征列表 (feats)
- IOB 标签列表 (iob_tags)
- 通用依赖关系列表 (uds)

数据集配置

配置选项:
- ner (命名实体识别)
- upos (词性标注)
- ud (依赖关系)
默认配置: ner

引用信息

引用文献:
- 标题: Universal Dependencies for Serbian in Comparison with Croatian and Other Slavic Languages
- 作者: Samardžić, Tanja; Starović, Mirjana; Agić, Željko; Ljubešić, Nikola
- 出版信息: Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing, Valencia, Spain, April 2017, Association for Computational Linguistics
- DOI: 10.18653/v1/W17-1407

5,000+

优质数据集

54 个

任务类型

进入经典数据集