SaranaAbidueva/buryat-russian_parallel_corpus
收藏Hugging Face2024-06-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SaranaAbidueva/buryat-russian_parallel_corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含41,000对俄语和布里亚特语的平行语料,其中包括19,411对句子和20,058对单词。数据来源多样,包括圣经、书籍、Tatoeba、诗歌、Nimbuev的诗歌、词典、维基百科、法律和儿童剧本等。数据集的结构包括训练集,其中包含40,979个示例,总大小为9,502,247字节。
提供机构:
SaranaAbidueva
原始信息汇总
数据集概述
基本信息
- 数据集名称: buryat-russian_parallel_corpus
- 许可证: cc-by-4.0
- 语言:
- 俄语 (ru)
- 布里亚特语 (bxr)
- 任务类别: 翻译
- 大小类别: 10K<n<100K
数据集特征
- bxr: 字符串类型
- ru: 字符串类型
- corpus: 字符串类型
数据集拆分
- 训练集:
- 示例数量: 38260
- 字节数: 8989074
数据集大小
- 下载大小: 4394110字节
- 数据集大小: 8989074字节
数据集内容
- 总对数: 38260对
- 句子对数: 19411对
- 单词对数: 20058对
数据来源统计
- 圣经: 7519
- 书籍: 5250
- 塔托耶巴: 807
- 诗歌: 471
- 尼姆布耶夫的诗歌: 1210
- 词典: 20058
- 维基百科: 1882
- 法律: 1063



