shijli/wmt14-deen
收藏Hugging Face2023-09-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shijli/wmt14-deen
下载链接
链接失效反馈官方服务:
资源简介:
WMT 2014德英翻译数据集,包含德语到英语和英语到德语的翻译数据。数据集通过fairseq脚本处理构建,用户可以通过执行bash脚本来创建数据集。此外,还有一个由transformer模型生成的精简版数据集,该数据集仅包含模型生成的目标句子,构建时需指定源语言和目标语言。
WMT 2014德英翻译数据集,包含德语到英语和英语到德语的翻译数据。数据集通过fairseq脚本处理构建,用户可以通过执行bash脚本来创建数据集。此外,还有一个由transformer模型生成的精简版数据集,该数据集仅包含模型生成的目标句子,构建时需指定源语言和目标语言。
提供机构:
shijli
原始信息汇总
WMT 2014 German-English Translation Dataset
数据集创建
- 该数据集使用fairseq的处理脚本构建,原始脚本可在这里找到。
- 创建数据集的命令如下: commandline git clone https://huggingface.co/datasets/shijli/wmt14-deen cd wmt14-deen/data bash prepare-wmt14.sh
蒸馏数据集
-
binarized.dist.de-en.zip和binarized.dist.en-de.zip是通过transformer基础模型生成的蒸馏数据集。 -
创建蒸馏数据集的命令如下: commandline bash prepare-wmt14-distill.sh /path/to/fairseq/model source-lang target-lang
-
创建蒸馏数据集前需先创建
binarized.zip。 -
蒸馏数据集仅使用模型生成的目标句子,因此不同的翻译方向会产生不同的数据集,需明确指定
source-lang和target-lang。 -
需将
/path/to/fairseq/model替换为预训练模型的路径。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



