five

procesaur/kisobran

收藏
Hugging Face2025-10-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/procesaur/kisobran
下载链接
链接失效反馈
官方服务:
资源简介:
Kišobran(Umbrella corp.)数据集是一个大规模的塞尔维亚语和塞尔维亚-克罗地亚语的网络语料库,适用于训练大型语言模型。数据集包含5600万份文档,总计超过185亿个单词。每个文档由一行表示,文档中的句子已进行标记。数据集还包含了多个已处理和去重的子语料库,涵盖了塞尔维亚语、克罗地亚语和波斯尼亚语。数据集的去重工作使用了onion工具,并设置了75%的去重阈值。研究得到了塞尔维亚科学基金的支持,计算资源由塞尔维亚国家人工智能平台提供。

Kišobran(Umbrella corp.)数据集是一个大规模的塞尔维亚语和塞尔维亚-克罗地亚语的网络语料库,适用于训练大型语言模型。数据集包含5600万份文档,总计超过185亿个单词。每个文档由一行表示,文档中的句子已进行标记。数据集还包含了多个已处理和去重的子语料库,涵盖了塞尔维亚语、克罗地亚语和波斯尼亚语。数据集的去重工作使用了onion工具,并设置了75%的去重阈值。研究得到了塞尔维亚科学基金的支持,计算资源由塞尔维亚国家人工智能平台提供。
提供机构:
procesaur
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Kišobran (Umbrella corp.)
  • 许可证: cc-by-sa-4.0
  • 任务类别: text-generation
  • 支持语言: sr, hr, bs
  • 标签: webdataset
  • 大小类别: 10B<n<100B

数据配置

  • 配置名称: default
  • 数据文件:
    • train: *.txt
    • sr: *_sr.txt
    • cnr: *_cnr.txt
    • hr: *_hr.txt
    • bs: *_bs.txt

数据集内容

  • 描述: 该数据集是迄今为止最大的网络语料库聚合,适用于训练塞尔维亚语的大型语言模型。
  • 文档数量: 总计x个文档
  • 词汇量: 超过18.5亿个单词
  • 文档结构: 每行代表一个文档,文档内的句子已标记。

包含的语料库

  • HPLT_sr: 语言 - 🇷🇸, 单词数 - 2.9 M, 文档数 - 2.5 B, 占比 - 13.74%
  • MaCoCu_sr: 语言 - 🇷🇸, 单词数 - 6.7 M, 文档数 - 2.1 B, 占比 - 11.54%
  • MC4_sr: 语言 - 🇷🇸, 单词数 - 2.3 M, 文档数 - 782 M, 占比 - 4.19%
  • cc100_sr: 语言 - 🇷🇸, 单词数 - 2.3 M, 文档数 - 659 M, 占比 - 3.53%
  • PDRS1.0: 语言 - 🇷🇸, 单词数 - 400 K, 文档数 - 506 M, 占比 - 2.71%
  • SrpKorNews: 语言 - 🇷🇸, 单词数 - 35 K, 文档数 - 469 M, 占比 - 2.51%
  • OSCAR_sr: 语言 - 🇷🇸, 单词数 - 500 K, 文档数 - 410 M, 占比 - 2.2%
  • srWaC: 语言 - 🇷🇸, 单词数 - 1.2 M, 文档数 - 307 M, 占比 - 1.65%
  • CLASSLA_sr: 语言 - 🇷🇸, 单词数 - 1.3 M, 文档数 - 240 M, 占比 - 1.29%
  • MaCoCu_cnr: 语言 - 🇷🇸/🇲🇪, 单词数 - 500 K, 文档数 - 152 M, 占比 - 0.82%
  • meWaC: 语言 - 🇷🇸/🇲🇪, 单词数 - 200 K, 文档数 - 41 M, 占比 - 0.22%
  • cc100_hr: 语言 - 🇭🇷, 单词数 - 13.3 M, 文档数 - 2.5 B, 占比 - 13.73%
  • MaCoCu_hr: 语言 - 🇭🇷, 单词数 - 8 M, 文档数 - 2.3 B, 占比 - 12.63%
  • HPLT_hr: 语言 - 🇭🇷, 单词数 - 2.3 M, 文档数 - 1.8 B, 占比 - 9.95%
  • hr_news: 语言 - 🇭🇷, 单词数 - 4.1 M, 文档数 - 1.4 B, 占比 - 7.65%
  • hrWaC: 语言 - 🇭🇷, 单词数 - 3.1 M, 文档数 - 935 M, 占比 - 5.01%
  • CLASSLA_hr: 语言 - 🇭🇷, 单词数 - 1.2 M, 文档数 - 160 M, 占比 - 0.86%
  • riznica: 语言 - 🇭🇷, 单词数 - 20 K, 文档数 - 69 M, 占比 - 0.37%
  • MaCoCu_bs: 语言 - 🇧🇦, 单词数 - 2.6 M, 文档数 - 700 M, 占比 - 3.75%
  • bsWaC: 语言 - 🇧🇦, 单词数 - 800 K, 文档数 - 194 M, 占比 - 1.04%
  • CLASSLA_bs: 语言 - 🇧🇦, 单词数 - 800 K, 文档数 - 105 M, 占比 - 0.56%
  • cc100_bs: 语言 - 🇧🇦, 单词数 - 300 K, 文档数 - 9 M, 占比 - 0.05%

总计

  • 单词数: 54.75 M
  • 文档数: 18.65 B
  • 占比: 100%
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作