five

Wilailack/zh-th_parallel

收藏
Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Wilailack/zh-th_parallel
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为zh-th_parallel,是一个中泰双语平行语料库。数据集包含训练集、测试集和验证集三个部分。训练集包含73,526个样本,测试集和验证集各包含100个样本。每个样本由泰语和中文的翻译对组成。数据集的下载大小为20,591,438字节,总大小为40,175,236字节。

The dataset is named zh-th_parallel and consists of parallel Chinese-Thai text pairs. It includes three splits: train, test, and validation. The train split contains 73,526 examples, while the test and validation splits each contain 100 examples. Each example consists of a Thai (th) and Chinese (zh) translation pair. The dataset has a download size of 20,591,438 bytes and a total size of 40,175,236 bytes.
提供机构:
Wilailack
原始信息汇总

数据集概述

配置信息

  • 配置名称: zh-th

特征信息

  • 特征名称: translation
    • 结构:
      • th: 类型为字符串
      • zh: 类型为字符串

数据分割

  • 训练集:
    • 字节数: 40128226
    • 样本数: 73526
  • 测试集:
    • 字节数: 21816
    • 样本数: 100
  • 验证集:
    • 字节数: 25194
    • 样本数: 100

数据大小

  • 下载大小: 20591438 字节
  • 数据集大小: 40175236 字节

数据文件路径

  • 配置名称: zh-th
    • 训练集路径: zh-th/train-*
    • 测试集路径: zh-th/test-*
    • 验证集路径: zh-th/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作