five

procesaur/STARS

收藏
Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/procesaur/STARS
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为S.T.A.R.S.,是一个高质量的塞尔维亚语博士论文集合,包含11,624份文档,总计超过5.56亿字。这些文档对于训练塞尔维亚语语言模型至关重要。每个文档通过双换行符分隔,每行代表一个段落,段落内的句子有标记。此外,还提供了完整的元数据和并行翻译文本的相关数据集。
提供机构:
procesaur
原始信息汇总

数据集概述

基本信息

  • 名称: S.T.A.R.S.
  • 语言: 塞尔维亚语(sr)
  • 大小: 100M<n<1B
  • 配置: 默认配置
    • 数据文件:
      • 分割: 训练
      • 路径: s.t.a.r.s.txt
  • 任务类别: 文本生成
  • 许可证: CC-BY-SA-4.0

数据集描述

  • 内容: 高质量的塞尔维亚语博士论文集合,包含11,624份文档,总计超过556百万单词。
  • 结构:
    • 每个文档由双换行符分隔。
    • 每行代表一个段落。
    • 段落内的句子有标记。
  • 用途: 用于训练高质量的塞尔维亚语语言模型。

相关资源

  • 元数据: 完整元数据可查看NARDUS-meta,包含13,289份论文的元数据。
  • 平行翻译库: 平行翻译段落库可查看PaSaž,包含超过20,000个平行段落。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作