five

shijli/wmt14-deen

收藏
Hugging Face2023-09-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shijli/wmt14-deen
下载链接
链接失效反馈
官方服务:
资源简介:
WMT 2014德英翻译数据集,包含德语到英语和英语到德语的翻译数据。数据集通过fairseq脚本处理构建,用户可以通过执行bash脚本来创建数据集。此外,还有一个由transformer模型生成的精简版数据集,该数据集仅包含模型生成的目标句子,构建时需指定源语言和目标语言。

WMT 2014德英翻译数据集,包含德语到英语和英语到德语的翻译数据。数据集通过fairseq脚本处理构建,用户可以通过执行bash脚本来创建数据集。此外,还有一个由transformer模型生成的精简版数据集,该数据集仅包含模型生成的目标句子,构建时需指定源语言和目标语言。
提供机构:
shijli
原始信息汇总

WMT 2014 German-English Translation Dataset

数据集创建

  • 该数据集使用fairseq的处理脚本构建,原始脚本可在这里找到。
  • 创建数据集的命令如下: commandline git clone https://huggingface.co/datasets/shijli/wmt14-deen cd wmt14-deen/data bash prepare-wmt14.sh

蒸馏数据集

  • binarized.dist.de-en.zipbinarized.dist.en-de.zip是通过transformer基础模型生成的蒸馏数据集。

  • 创建蒸馏数据集的命令如下: commandline bash prepare-wmt14-distill.sh /path/to/fairseq/model source-lang target-lang

  • 创建蒸馏数据集前需先创建binarized.zip

  • 蒸馏数据集仅使用模型生成的目标句子,因此不同的翻译方向会产生不同的数据集,需明确指定source-langtarget-lang

  • 需将/path/to/fairseq/model替换为预训练模型的路径。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作