AlienKevin/yue-cmn-eng
收藏Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/AlienKevin/yue-cmn-eng
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含英语、粤语和普通话之间的翻译数据,主要用于翻译任务。数据集分为三个配置:英语-粤语(eng-yue)、英语-普通话(eng-cmn)和普通话-粤语(cmn-yue)。每个配置都包含测试集和训练集,其中英语-粤语配置的训练集有53333个示例,测试集有1500个示例;英语-普通话配置的训练集有47135个示例,测试集有1500个示例;普通话-粤语配置的训练集有11504个示例,测试集有1500个示例。
该数据集包含英语、粤语和普通话之间的翻译数据,主要用于翻译任务。数据集分为三个配置:英语-粤语(eng-yue)、英语-普通话(eng-cmn)和普通话-粤语(cmn-yue)。每个配置都包含测试集和训练集,其中英语-粤语配置的训练集有53333个示例,测试集有1500个示例;英语-普通话配置的训练集有47135个示例,测试集有1500个示例;普通话-粤语配置的训练集有11504个示例,测试集有1500个示例。
提供机构:
AlienKevin
原始信息汇总
数据集概述
数据集配置
- eng-yue: 英语到粤语的翻译数据集。
- eng-cmn: 英语到普通话的翻译数据集。
- cmn-yue: 普通话到粤语的翻译数据集。
数据集特征
- translation: 每个配置的特征均为翻译,涉及两种语言。
数据集分割
- eng-yue:
- train: 53,333个样本
- test: 1,500个样本
- eng-cmn:
- train: 47,135个样本
- test: 1,500个样本
- cmn-yue:
- train: 11,504个样本
- test: 1,500个样本
数据文件路径
- eng-yue:
- train: eng-yue/train-*
- test: eng-yue/test-*
- eng-cmn:
- train: eng-cmn/train-*
- test: eng-cmn/test-*
- cmn-yue:
- train: cmn-yue/train-*
- test: cmn-yue/test-*



