procesaur/kisobran

Name: procesaur/kisobran
Creator: procesaur
Published: 2025-10-27 10:39:45
License: 暂无描述

Hugging Face2025-10-27 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/procesaur/kisobran

下载链接

链接失效反馈

官方服务：

资源简介：

Kišobran（Umbrella corp.）数据集是一个大规模的塞尔维亚语和塞尔维亚-克罗地亚语的网络语料库，适用于训练大型语言模型。数据集包含5600万份文档，总计超过185亿个单词。每个文档由一行表示，文档中的句子已进行标记。数据集还包含了多个已处理和去重的子语料库，涵盖了塞尔维亚语、克罗地亚语和波斯尼亚语。数据集的去重工作使用了onion工具，并设置了75%的去重阈值。研究得到了塞尔维亚科学基金的支持，计算资源由塞尔维亚国家人工智能平台提供。

提供机构：

procesaur

原始信息汇总

数据集概述

基本信息

数据集名称: Kišobran (Umbrella corp.)
许可证: cc-by-sa-4.0
任务类别: text-generation
支持语言: sr, hr, bs
标签: webdataset
大小类别: 10B<n<100B

数据配置

配置名称: default
数据文件:
- train: *.txt
- sr: *_sr.txt
- cnr: *_cnr.txt
- hr: *_hr.txt
- bs: *_bs.txt

数据集内容

描述: 该数据集是迄今为止最大的网络语料库聚合，适用于训练塞尔维亚语的大型语言模型。
文档数量: 总计x个文档
词汇量: 超过18.5亿个单词
文档结构: 每行代表一个文档，文档内的句子已标记。

包含的语料库

HPLT_sr: 语言 - 🇷🇸, 单词数 - 2.9 M, 文档数 - 2.5 B, 占比 - 13.74%
MaCoCu_sr: 语言 - 🇷🇸, 单词数 - 6.7 M, 文档数 - 2.1 B, 占比 - 11.54%
MC4_sr: 语言 - 🇷🇸, 单词数 - 2.3 M, 文档数 - 782 M, 占比 - 4.19%
cc100_sr: 语言 - 🇷🇸, 单词数 - 2.3 M, 文档数 - 659 M, 占比 - 3.53%
PDRS1.0: 语言 - 🇷🇸, 单词数 - 400 K, 文档数 - 506 M, 占比 - 2.71%
SrpKorNews: 语言 - 🇷🇸, 单词数 - 35 K, 文档数 - 469 M, 占比 - 2.51%
OSCAR_sr: 语言 - 🇷🇸, 单词数 - 500 K, 文档数 - 410 M, 占比 - 2.2%
srWaC: 语言 - 🇷🇸, 单词数 - 1.2 M, 文档数 - 307 M, 占比 - 1.65%
CLASSLA_sr: 语言 - 🇷🇸, 单词数 - 1.3 M, 文档数 - 240 M, 占比 - 1.29%
MaCoCu_cnr: 语言 - 🇷🇸/🇲🇪, 单词数 - 500 K, 文档数 - 152 M, 占比 - 0.82%
meWaC: 语言 - 🇷🇸/🇲🇪, 单词数 - 200 K, 文档数 - 41 M, 占比 - 0.22%
cc100_hr: 语言 - 🇭🇷, 单词数 - 13.3 M, 文档数 - 2.5 B, 占比 - 13.73%
MaCoCu_hr: 语言 - 🇭🇷, 单词数 - 8 M, 文档数 - 2.3 B, 占比 - 12.63%
HPLT_hr: 语言 - 🇭🇷, 单词数 - 2.3 M, 文档数 - 1.8 B, 占比 - 9.95%
hr_news: 语言 - 🇭🇷, 单词数 - 4.1 M, 文档数 - 1.4 B, 占比 - 7.65%
hrWaC: 语言 - 🇭🇷, 单词数 - 3.1 M, 文档数 - 935 M, 占比 - 5.01%
CLASSLA_hr: 语言 - 🇭🇷, 单词数 - 1.2 M, 文档数 - 160 M, 占比 - 0.86%
riznica: 语言 - 🇭🇷, 单词数 - 20 K, 文档数 - 69 M, 占比 - 0.37%
MaCoCu_bs: 语言 - 🇧🇦, 单词数 - 2.6 M, 文档数 - 700 M, 占比 - 3.75%
bsWaC: 语言 - 🇧🇦, 单词数 - 800 K, 文档数 - 194 M, 占比 - 1.04%
CLASSLA_bs: 语言 - 🇧🇦, 单词数 - 800 K, 文档数 - 105 M, 占比 - 0.56%
cc100_bs: 语言 - 🇧🇦, 单词数 - 300 K, 文档数 - 9 M, 占比 - 0.05%

总计

单词数: 54.75 M
文档数: 18.65 B
占比: 100%

5,000+

优质数据集

54 个

任务类型

进入经典数据集