davidmeikle/opus-translation-train-en-de-cs

Name: davidmeikle/opus-translation-train-en-de-cs
Creator: davidmeikle
Published: 2026-04-22 08:36:50
License: 暂无描述

Hugging Face2026-04-22 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/davidmeikle/opus-translation-train-en-de-cs

下载链接

链接失效反馈

官方服务：

资源简介：

OPUS翻译训练数据集是一个用于机器翻译模型微调的专业数据集，包含英语-德语(en-de)和英语-捷克语(en-cs)两种语言对。数据来源于Helsinki-NLP的OPUS-100数据集，使用de-en和cs-en配置，每个语言对约50k个片段(经过5-500字符长度过滤，使用随机种子42打乱)。数据格式为每行一个JSON对象，包含完整的训练提示文本(如Translate English to German)、目标语言代码(de或cs)、英语原文和目标语言翻译。数据集总共有97,926个片段，其中en-de有49,132个，en-cs有48,794个。

The OPUS Translation Training Data is a specialized dataset for fine-tuning machine translation models, containing English-German (en-de) and English-Czech (en-cs) language pairs. The data originates from Helsinki-NLPs OPUS-100 dataset, using de-en and cs-en configurations with approximately 50k segments per language pair (filtered for 5-500 character length, shuffled with seed=42). Each line is formatted as a JSON object containing the full training prompt text (e.g. Translate English to German), target language code (de or cs), English source text, and target language translation. The dataset contains 97,926 segments in total, with 49,132 en-de and 48,794 en-cs segments.

提供机构：

davidmeikle

5,000+

优质数据集

54 个

任务类型

进入经典数据集