bot-yaya/undl_zh2en_translation

Name: bot-yaya/undl_zh2en_translation
Creator: bot-yaya
Published: 2024-07-09 09:53:58
License: 暂无描述

Hugging Face2024-07-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bot-yaya/undl_zh2en_translation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含中文和英文的翻译对，主要用于机器翻译任务。数据集通过argostranslate工具生成，并且在翻译前已经使用脚本清洗了制表噪声和分隔符。数据集包含四个特征：clean_zh（中文文本）、clean_en（英文文本）、record（记录信息）和zh2en（中文到英文的翻译）。数据集仅包含一个训练集，大小为13263355893字节，包含165840个样本。

提供机构：

bot-yaya

原始信息汇总

数据集概述

数据集信息

特征:
- clean_zh: 中文序列，类型为字符串。
- clean_en: 英文序列，类型为字符串。
- record: 记录，类型为字符串。
- zh2en: 中译英序列，类型为字符串。
分割:
- train: 训练集，包含165840个样本，大小为13263355893字节。
下载大小: 6373670636字节
数据集大小: 13263355893字节

配置

配置名称: default
- 数据文件:
  - train: 路径为data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集