lang-uk/malyuk
收藏Hugging Face2025-03-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lang-uk/malyuk
下载链接
链接失效反馈官方服务:
资源简介:
Malyuk是一个乌克兰语的文本数据集,包含超过100亿字符,但少于1000亿字符。数据集由UberText 2.0、Oscar和Ukrainian News三个子数据集组合而成,总共有113GB的文本数据,包含38941863篇文章。数据集的目的是为了简化乌克兰语言的大型语言模型(LLM)的训练。
提供机构:
lang-uk
原始信息汇总
数据集概述
数据集名称
Malyuk
数据集语言
乌克兰语(uk)
数据集大小
- 数据量:113GB
- 文章数量:38,941,863篇
数据集组成
- UberText 2.0
- Oscar
- Ukrainian News
数据格式
文本格式:jsonl
数据集用途
用于简化乌克兰语言大型模型(LLM)的训练。



