bot-yaya/undl_zh2en_translation
收藏Hugging Face2024-07-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bot-yaya/undl_zh2en_translation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含中文和英文的翻译对,主要用于机器翻译任务。数据集通过argostranslate工具生成,并且在翻译前已经使用脚本清洗了制表噪声和分隔符。数据集包含四个特征:clean_zh(中文文本)、clean_en(英文文本)、record(记录信息)和zh2en(中文到英文的翻译)。数据集仅包含一个训练集,大小为13263355893字节,包含165840个样本。
该数据集包含中文和英文的翻译对,主要用于机器翻译任务。数据集通过argostranslate工具生成,并且在翻译前已经使用脚本清洗了制表噪声和分隔符。数据集包含四个特征:clean_zh(中文文本)、clean_en(英文文本)、record(记录信息)和zh2en(中文到英文的翻译)。数据集仅包含一个训练集,大小为13263355893字节,包含165840个样本。
提供机构:
bot-yaya
原始信息汇总
数据集概述
数据集信息
- 特征:
clean_zh: 中文序列,类型为字符串。clean_en: 英文序列,类型为字符串。record: 记录,类型为字符串。zh2en: 中译英序列,类型为字符串。
- 分割:
train: 训练集,包含165840个样本,大小为13263355893字节。
- 下载大小: 6373670636字节
- 数据集大小: 13263355893字节
配置
- 配置名称: default
- 数据文件:
train: 路径为data/train-*
- 数据文件:



