ukr-models/Ukr-Synth

Name: ukr-models/Ukr-Synth
Creator: ukr-models
Published: 2023-08-31 09:35:43
License: 暂无描述

Hugging Face2023-08-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ukr-models/Ukr-Synth

下载链接

链接失效反馈

官方服务：

资源简介：

Ukr-Synth数据集是一个大规模的乌克兰语语料库，包含形态学标签、句法树和PER、LOC、ORG等命名实体识别标签。该数据集是从Leipzig Corpora Collection中抽取的乌克兰语报纸文本，经过句子分割和随机打乱后，使用基于Transformer的模型进行标注。数据集的语言为乌克兰语，格式为conllu，适用于命名实体识别、句法分析和词性标注等任务。数据集的大小在1M到10M之间，分为训练集和验证集，训练集包含1000000个样本，验证集包含10000个样本。数据集的创建基于Leipzig Corpora Collection，并遵循MIT许可证。

提供机构：

ukr-models

原始信息汇总

数据集概述

数据集描述

数据集总结

本数据集为一个大型的银标乌克兰语语料库，包含了形态学标签、句法树以及PER、LOC、ORG命名实体识别标签。该数据集是Leipzig Corpora Collection for Ukrainian Language的一个子样本，源文本为报纸文本，已被分割成句子并打乱顺序。句子通过基于黄金标准乌克兰语数据集训练的transformer模型进行标注。

语言

乌克兰语

数据集结构

数据分割

名称	训练集	验证集
conll2003	1000000	10000

数据集创建

源数据

来源：Leipzig Corpora Collection
参考文献：D. Goldhahn, T. Eckart & U. Quasthoff: Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages. In: Proceedings of the 8th International Language Resources and Evaluation (LREC12), 2012

附加信息

许可信息

许可证：MIT License
版权年份：2022

5,000+

优质数据集

54 个

任务类型

进入经典数据集