Wilailack/zh-th_parallel
收藏Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Wilailack/zh-th_parallel
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为zh-th_parallel,是一个中泰双语平行语料库。数据集包含训练集、测试集和验证集三个部分。训练集包含73,526个样本,测试集和验证集各包含100个样本。每个样本由泰语和中文的翻译对组成。数据集的下载大小为20,591,438字节,总大小为40,175,236字节。
The dataset is named zh-th_parallel and consists of parallel Chinese-Thai text pairs. It includes three splits: train, test, and validation. The train split contains 73,526 examples, while the test and validation splits each contain 100 examples. Each example consists of a Thai (th) and Chinese (zh) translation pair. The dataset has a download size of 20,591,438 bytes and a total size of 40,175,236 bytes.
提供机构:
Wilailack
原始信息汇总
数据集概述
配置信息
- 配置名称: zh-th
特征信息
- 特征名称: translation
- 结构:
- th: 类型为字符串
- zh: 类型为字符串
- 结构:
数据分割
- 训练集:
- 字节数: 40128226
- 样本数: 73526
- 测试集:
- 字节数: 21816
- 样本数: 100
- 验证集:
- 字节数: 25194
- 样本数: 100
数据大小
- 下载大小: 20591438 字节
- 数据集大小: 40175236 字节
数据文件路径
- 配置名称: zh-th
- 训练集路径: zh-th/train-*
- 测试集路径: zh-th/test-*
- 验证集路径: zh-th/validation-*



