Dauren-Nur/kaz_rus_parallel_corpora_KAZNU
收藏Hugging Face2024-03-14 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Dauren-Nur/kaz_rus_parallel_corpora_KAZNU
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: kaz
dtype: string
- name: rus
dtype: string
splits:
- name: train
num_bytes: 36422766.148103595
num_examples: 69162
- name: test
num_bytes: 9105954.851896405
num_examples: 17291
download_size: 23404279
dataset_size: 45528721
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
task_categories:
- translation
language:
- kk
- ru
pretty_name: Parallel corpora for Kazakh and Russian language
size_categories:
- 10K<n<100K
---
提供机构:
Dauren-Nur
原始信息汇总
数据集概述
数据集特征
- kaz: 数据类型为字符串
- rus: 数据类型为字符串
数据集分割
- 训练集: 包含69162个样本,占用36422766.148103595字节
- 测试集: 包含17291个样本,占用9105954.851896405字节
数据集大小
- 下载大小: 23404279字节
- 数据集总大小: 45528721字节
配置文件
- 默认配置: 包含训练集和测试集的数据文件路径
- 训练集路径:
data/train-* - 测试集路径:
data/test-*
- 训练集路径:
任务类别
- 翻译
语言
- 哈萨克语 (kk)
- 俄语 (ru)
数据集名称
- 名称: Parallel corpora for Kazakh and Russian language
大小类别
- 10K<n<100K



