five

AlienKevin/yue-cmn-eng

收藏
Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/AlienKevin/yue-cmn-eng
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含英语、粤语和普通话之间的翻译数据,主要用于翻译任务。数据集分为三个配置:英语-粤语(eng-yue)、英语-普通话(eng-cmn)和普通话-粤语(cmn-yue)。每个配置都包含测试集和训练集,其中英语-粤语配置的训练集有53333个示例,测试集有1500个示例;英语-普通话配置的训练集有47135个示例,测试集有1500个示例;普通话-粤语配置的训练集有11504个示例,测试集有1500个示例。

该数据集包含英语、粤语和普通话之间的翻译数据,主要用于翻译任务。数据集分为三个配置:英语-粤语(eng-yue)、英语-普通话(eng-cmn)和普通话-粤语(cmn-yue)。每个配置都包含测试集和训练集,其中英语-粤语配置的训练集有53333个示例,测试集有1500个示例;英语-普通话配置的训练集有47135个示例,测试集有1500个示例;普通话-粤语配置的训练集有11504个示例,测试集有1500个示例。
提供机构:
AlienKevin
原始信息汇总

数据集概述

数据集配置

  • eng-yue: 英语到粤语的翻译数据集。
  • eng-cmn: 英语到普通话的翻译数据集。
  • cmn-yue: 普通话到粤语的翻译数据集。

数据集特征

  • translation: 每个配置的特征均为翻译,涉及两种语言。

数据集分割

  • eng-yue:
    • train: 53,333个样本
    • test: 1,500个样本
  • eng-cmn:
    • train: 47,135个样本
    • test: 1,500个样本
  • cmn-yue:
    • train: 11,504个样本
    • test: 1,500个样本

数据文件路径

  • eng-yue:
    • train: eng-yue/train-*
    • test: eng-yue/test-*
  • eng-cmn:
    • train: eng-cmn/train-*
    • test: eng-cmn/test-*
  • cmn-yue:
    • train: cmn-yue/train-*
    • test: cmn-yue/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作