five

SaranaAbidueva/buryat-russian_parallel_corpus

收藏
Hugging Face2024-06-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SaranaAbidueva/buryat-russian_parallel_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含41,000对俄语和布里亚特语的平行语料,其中包括19,411对句子和20,058对单词。数据来源多样,包括圣经、书籍、Tatoeba、诗歌、Nimbuev的诗歌、词典、维基百科、法律和儿童剧本等。数据集的结构包括训练集,其中包含40,979个示例,总大小为9,502,247字节。
提供机构:
SaranaAbidueva
原始信息汇总

数据集概述

基本信息

  • 数据集名称: buryat-russian_parallel_corpus
  • 许可证: cc-by-4.0
  • 语言:
    • 俄语 (ru)
    • 布里亚特语 (bxr)
  • 任务类别: 翻译
  • 大小类别: 10K<n<100K

数据集特征

  • bxr: 字符串类型
  • ru: 字符串类型
  • corpus: 字符串类型

数据集拆分

  • 训练集:
    • 示例数量: 38260
    • 字节数: 8989074

数据集大小

  • 下载大小: 4394110字节
  • 数据集大小: 8989074字节

数据集内容

  • 总对数: 38260对
  • 句子对数: 19411对
  • 单词对数: 20058对

数据来源统计

  • 圣经: 7519
  • 书籍: 5250
  • 塔托耶巴: 807
  • 诗歌: 471
  • 尼姆布耶夫的诗歌: 1210
  • 词典: 20058
  • 维基百科: 1882
  • 法律: 1063
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作