babs/large-text-multilingual-dataset
收藏Hugging Face2024-04-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/babs/large-text-multilingual-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: src_lang
dtype: string
- name: tgt_lang
dtype: string
- name: src_text
dtype: string
- name: tgt_text
dtype: string
splits:
- name: validation
num_bytes: 4652553.0
num_examples: 30000
- name: test_data
num_bytes: 7319697.0
num_examples: 42000
- name: train
num_bytes: 3903276358.0
num_examples: 28902212
download_size: 5967652250
dataset_size: 3915248608.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test_data
path: data/test_data-*
---
提供机构:
babs
原始信息汇总
数据集概述
数据集特征
- src_lang: 数据类型为字符串。
- tgt_lang: 数据类型为字符串。
- src_text: 数据类型为字符串。
- tgt_text: 数据类型为字符串。
数据集分割
- validation: 包含30000个样本,总大小为4652553字节。
- test_data: 包含42000个样本,总大小为7319697字节。
- train: 包含28902212个样本,总大小为3903276358字节。
数据集大小
- 下载大小: 5967652250字节。
- 数据集总大小: 3915248608字节。
数据文件配置
- 配置名称: default
- 数据文件路径:
- train: data/train-*
- validation: data/validation-*
- test_data: data/test_data-*



