procesaur/STARS
收藏Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/procesaur/STARS
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为S.T.A.R.S.,是一个高质量的塞尔维亚语博士论文集合,包含11,624份文档,总计超过5.56亿字。这些文档对于训练塞尔维亚语语言模型至关重要。每个文档通过双换行符分隔,每行代表一个段落,段落内的句子有标记。此外,还提供了完整的元数据和并行翻译文本的相关数据集。
提供机构:
procesaur
原始信息汇总
数据集概述
基本信息
- 名称: S.T.A.R.S.
- 语言: 塞尔维亚语(sr)
- 大小: 100M<n<1B
- 配置: 默认配置
- 数据文件:
- 分割: 训练
- 路径: s.t.a.r.s.txt
- 数据文件:
- 任务类别: 文本生成
- 许可证: CC-BY-SA-4.0
数据集描述
- 内容: 高质量的塞尔维亚语博士论文集合,包含11,624份文档,总计超过556百万单词。
- 结构:
- 每个文档由双换行符分隔。
- 每行代表一个段落。
- 段落内的句子有标记。
- 用途: 用于训练高质量的塞尔维亚语语言模型。
相关资源
- 元数据: 完整元数据可查看NARDUS-meta,包含13,289份论文的元数据。
- 平行翻译库: 平行翻译段落库可查看PaSaž,包含超过20,000个平行段落。



