five

stas/wmt16-en-ro-pre-processed

收藏
Hugging Face2021-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stas/wmt16-en-ro-pre-processed
下载链接
链接失效反馈
官方服务:
资源简介:
WMT16 English-Romanian Translation Data数据集是一个经过进一步预处理的英罗翻译数据集。该数据集通过克隆GitHub仓库并运行其中的脚本来获取和预处理。数据集最初用于`transformers`库的`finetune_trainer.py`脚本。README还提供了一个将数据集转换为jsonlines格式的脚本,并指出如果使用`datasets` API,转换将在运行时自动完成。
提供机构:
stas
原始信息汇总

WMT16 English-Romanian Translation Data

数据集概述

  • 原始数据来源WMT16 scripts
  • 数据处理步骤
    • 克隆仓库:git clone https://github.com/rsennrich/wmt16-scripts
    • 进入目录:cd wmt16-scripts/sample
    • 下载文件:./download_files.sh
    • 预处理:./preprocess.sh
  • 原始用途:用于transformers库中的finetune_trainer.py脚本(链接
  • 数据存储位置https://cdn-datasets.huggingface.co/translation/wmt_en_ro.tar.gz
  • 数据格式转换:提供convert-to-jsonlines.py脚本用于将数据转换为jsonlines格式,若使用datasets API,转换将自动进行。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作