procesaur/kisobran
收藏Hugging Face2025-10-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/procesaur/kisobran
下载链接
链接失效反馈官方服务:
资源简介:
Kišobran(Umbrella corp.)数据集是一个大规模的塞尔维亚语和塞尔维亚-克罗地亚语的网络语料库,适用于训练大型语言模型。数据集包含5600万份文档,总计超过185亿个单词。每个文档由一行表示,文档中的句子已进行标记。数据集还包含了多个已处理和去重的子语料库,涵盖了塞尔维亚语、克罗地亚语和波斯尼亚语。数据集的去重工作使用了onion工具,并设置了75%的去重阈值。研究得到了塞尔维亚科学基金的支持,计算资源由塞尔维亚国家人工智能平台提供。
Kišobran(Umbrella corp.)数据集是一个大规模的塞尔维亚语和塞尔维亚-克罗地亚语的网络语料库,适用于训练大型语言模型。数据集包含5600万份文档,总计超过185亿个单词。每个文档由一行表示,文档中的句子已进行标记。数据集还包含了多个已处理和去重的子语料库,涵盖了塞尔维亚语、克罗地亚语和波斯尼亚语。数据集的去重工作使用了onion工具,并设置了75%的去重阈值。研究得到了塞尔维亚科学基金的支持,计算资源由塞尔维亚国家人工智能平台提供。
提供机构:
procesaur
原始信息汇总
数据集概述
基本信息
- 数据集名称: Kišobran (Umbrella corp.)
- 许可证: cc-by-sa-4.0
- 任务类别: text-generation
- 支持语言: sr, hr, bs
- 标签: webdataset
- 大小类别: 10B<n<100B
数据配置
- 配置名称: default
- 数据文件:
- train: *.txt
- sr: *_sr.txt
- cnr: *_cnr.txt
- hr: *_hr.txt
- bs: *_bs.txt
数据集内容
- 描述: 该数据集是迄今为止最大的网络语料库聚合,适用于训练塞尔维亚语的大型语言模型。
- 文档数量: 总计x个文档
- 词汇量: 超过18.5亿个单词
- 文档结构: 每行代表一个文档,文档内的句子已标记。
包含的语料库
- HPLT_sr: 语言 - 🇷🇸, 单词数 - 2.9 M, 文档数 - 2.5 B, 占比 - 13.74%
- MaCoCu_sr: 语言 - 🇷🇸, 单词数 - 6.7 M, 文档数 - 2.1 B, 占比 - 11.54%
- MC4_sr: 语言 - 🇷🇸, 单词数 - 2.3 M, 文档数 - 782 M, 占比 - 4.19%
- cc100_sr: 语言 - 🇷🇸, 单词数 - 2.3 M, 文档数 - 659 M, 占比 - 3.53%
- PDRS1.0: 语言 - 🇷🇸, 单词数 - 400 K, 文档数 - 506 M, 占比 - 2.71%
- SrpKorNews: 语言 - 🇷🇸, 单词数 - 35 K, 文档数 - 469 M, 占比 - 2.51%
- OSCAR_sr: 语言 - 🇷🇸, 单词数 - 500 K, 文档数 - 410 M, 占比 - 2.2%
- srWaC: 语言 - 🇷🇸, 单词数 - 1.2 M, 文档数 - 307 M, 占比 - 1.65%
- CLASSLA_sr: 语言 - 🇷🇸, 单词数 - 1.3 M, 文档数 - 240 M, 占比 - 1.29%
- MaCoCu_cnr: 语言 - 🇷🇸/🇲🇪, 单词数 - 500 K, 文档数 - 152 M, 占比 - 0.82%
- meWaC: 语言 - 🇷🇸/🇲🇪, 单词数 - 200 K, 文档数 - 41 M, 占比 - 0.22%
- cc100_hr: 语言 - 🇭🇷, 单词数 - 13.3 M, 文档数 - 2.5 B, 占比 - 13.73%
- MaCoCu_hr: 语言 - 🇭🇷, 单词数 - 8 M, 文档数 - 2.3 B, 占比 - 12.63%
- HPLT_hr: 语言 - 🇭🇷, 单词数 - 2.3 M, 文档数 - 1.8 B, 占比 - 9.95%
- hr_news: 语言 - 🇭🇷, 单词数 - 4.1 M, 文档数 - 1.4 B, 占比 - 7.65%
- hrWaC: 语言 - 🇭🇷, 单词数 - 3.1 M, 文档数 - 935 M, 占比 - 5.01%
- CLASSLA_hr: 语言 - 🇭🇷, 单词数 - 1.2 M, 文档数 - 160 M, 占比 - 0.86%
- riznica: 语言 - 🇭🇷, 单词数 - 20 K, 文档数 - 69 M, 占比 - 0.37%
- MaCoCu_bs: 语言 - 🇧🇦, 单词数 - 2.6 M, 文档数 - 700 M, 占比 - 3.75%
- bsWaC: 语言 - 🇧🇦, 单词数 - 800 K, 文档数 - 194 M, 占比 - 1.04%
- CLASSLA_bs: 语言 - 🇧🇦, 单词数 - 800 K, 文档数 - 105 M, 占比 - 0.56%
- cc100_bs: 语言 - 🇧🇦, 单词数 - 300 K, 文档数 - 9 M, 占比 - 0.05%
总计
- 单词数: 54.75 M
- 文档数: 18.65 B
- 占比: 100%



