AigizK/mari-russian-parallel-corpora
收藏Hugging Face2024-05-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AigizK/mari-russian-parallel-corpora
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- mhr
- ru
license: cc-by-4.0
task_categories:
- translation
pretty_name: '2'
dataset_info:
features:
- name: mhr
dtype: string
- name: rus
dtype: string
splits:
- name: train
num_bytes: 85575686
num_examples: 413841
download_size: 42228253
dataset_size: 85575686
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dataset Card for "mari-russian-parallel-corpora"
```
@inproceedings{
title={Mari-Russian parallel corpora},
author={Andrei Chemyshev, Gennadii Sabantsev, Nadezhda Timofeeva, Vasilii Semenov},
year={2023}
}
```
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
语言:
- 东马里语(mhr)
- 俄语(ru)
许可协议: 知识共享署名4.0国际许可协议(CC BY 4.0)
任务类别:
- 机器翻译
数据集展示名: '2'
数据集信息:
特征:
- 名称: 东马里语(mhr),数据类型: 字符串
- 名称: 俄语(rus),数据类型: 字符串
数据拆分:
- 名称: 训练集(train),字节大小: 85575686,样本数量: 413841
下载大小: 42228253 字节
数据集总大小: 85575686 字节
配置项:
- 配置名称: 默认(default),数据文件:
- 拆分: 训练集,路径: data/train-*
---
# 「马里语-俄语平行语料库(mari-russian-parallel-corpora)」数据集卡片
@inproceedings{
title={马里语-俄语平行语料库},
author={安德烈·切梅舍夫、根纳季·萨班采夫、娜杰日达·季莫费耶娃、瓦西里·谢苗诺夫},
year={2023}
}
[如需更多信息,请访问:https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards]
提供机构:
AigizK
原始信息汇总
数据集概述
基本信息
- 名称: mari-russian-parallel-corpora
- 语言:
- mhr(马里语)
- ru(俄语)
- 许可证: cc-by-4.0
- 任务类别: 翻译
数据集结构
- 特征:
- mhr: 字符串类型
- rus: 字符串类型
- 分割:
- train:
- 字节数: 82806768
- 示例数: 400609
- train:
数据集大小
- 下载大小: 40746755 字节
- 数据集大小: 82806768 字节
配置
- 默认配置:
- 数据文件路径: data/train-*
数据集别名
- 别名: 1



