five

ukr-models/Ukr-Synth

收藏
Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ukr-models/Ukr-Synth
下载链接
链接失效反馈
官方服务:
资源简介:
Ukr-Synth数据集是一个大规模的乌克兰语语料库,包含形态学标签、句法树和PER、LOC、ORG等命名实体识别标签。该数据集是从Leipzig Corpora Collection中抽取的乌克兰语报纸文本,经过句子分割和随机打乱后,使用基于Transformer的模型进行标注。数据集的语言为乌克兰语,格式为conllu,适用于命名实体识别、句法分析和词性标注等任务。数据集的大小在1M到10M之间,分为训练集和验证集,训练集包含1000000个样本,验证集包含10000个样本。数据集的创建基于Leipzig Corpora Collection,并遵循MIT许可证。
提供机构:
ukr-models
原始信息汇总

数据集概述

数据集描述

数据集总结

本数据集为一个大型的银标乌克兰语语料库,包含了形态学标签、句法树以及PER、LOC、ORG命名实体识别标签。该数据集是Leipzig Corpora Collection for Ukrainian Language的一个子样本,源文本为报纸文本,已被分割成句子并打乱顺序。句子通过基于黄金标准乌克兰语数据集训练的transformer模型进行标注。

语言

乌克兰语

数据集结构

数据分割

名称 训练集 验证集
conll2003 1000000 10000

数据集创建

源数据

  • 来源:Leipzig Corpora Collection
  • 参考文献:D. Goldhahn, T. Eckart & U. Quasthoff: Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages. In: Proceedings of the 8th International Language Resources and Evaluation (LREC12), 2012

附加信息

许可信息

  • 许可证:MIT License
  • 版权年份:2022
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作