ukr-models/Ukr-Synth
收藏Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ukr-models/Ukr-Synth
下载链接
链接失效反馈官方服务:
资源简介:
Ukr-Synth数据集是一个大规模的乌克兰语语料库,包含形态学标签、句法树和PER、LOC、ORG等命名实体识别标签。该数据集是从Leipzig Corpora Collection中抽取的乌克兰语报纸文本,经过句子分割和随机打乱后,使用基于Transformer的模型进行标注。数据集的语言为乌克兰语,格式为conllu,适用于命名实体识别、句法分析和词性标注等任务。数据集的大小在1M到10M之间,分为训练集和验证集,训练集包含1000000个样本,验证集包含10000个样本。数据集的创建基于Leipzig Corpora Collection,并遵循MIT许可证。
提供机构:
ukr-models
原始信息汇总
数据集概述
数据集描述
数据集总结
本数据集为一个大型的银标乌克兰语语料库,包含了形态学标签、句法树以及PER、LOC、ORG命名实体识别标签。该数据集是Leipzig Corpora Collection for Ukrainian Language的一个子样本,源文本为报纸文本,已被分割成句子并打乱顺序。句子通过基于黄金标准乌克兰语数据集训练的transformer模型进行标注。
语言
乌克兰语
数据集结构
数据分割
| 名称 | 训练集 | 验证集 |
|---|---|---|
| conll2003 | 1000000 | 10000 |
数据集创建
源数据
- 来源:Leipzig Corpora Collection
- 参考文献:D. Goldhahn, T. Eckart & U. Quasthoff: Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages. In: Proceedings of the 8th International Language Resources and Evaluation (LREC12), 2012
附加信息
许可信息
- 许可证:MIT License
- 版权年份:2022



