stas/wmt16-en-ro-pre-processed
收藏Hugging Face2021-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stas/wmt16-en-ro-pre-processed
下载链接
链接失效反馈官方服务:
资源简介:
WMT16 English-Romanian Translation Data数据集是一个经过进一步预处理的英罗翻译数据集。该数据集通过克隆GitHub仓库并运行其中的脚本来获取和预处理。数据集最初用于`transformers`库的`finetune_trainer.py`脚本。README还提供了一个将数据集转换为jsonlines格式的脚本,并指出如果使用`datasets` API,转换将在运行时自动完成。
提供机构:
stas
原始信息汇总
WMT16 English-Romanian Translation Data
数据集概述
- 原始数据来源:WMT16 scripts
- 数据处理步骤:
- 克隆仓库:
git clone https://github.com/rsennrich/wmt16-scripts - 进入目录:
cd wmt16-scripts/sample - 下载文件:
./download_files.sh - 预处理:
./preprocess.sh
- 克隆仓库:
- 原始用途:用于
transformers库中的finetune_trainer.py脚本(链接) - 数据存储位置:https://cdn-datasets.huggingface.co/translation/wmt_en_ro.tar.gz
- 数据格式转换:提供
convert-to-jsonlines.py脚本用于将数据转换为jsonlines格式,若使用datasetsAPI,转换将自动进行。



