LocalDoc/en_az_translate_benchmark

Name: LocalDoc/en_az_translate_benchmark
Creator: LocalDoc
Published: 2026-04-04 07:29:48
License: 暂无描述

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/LocalDoc/en_az_translate_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en - az task_categories: - translation size_categories: - 1K<n<10K license: apache-2.0 tags: - flores - azerbaijani - machine-translation - benchmark --- # EN-AZ Translation Benchmark High-quality English-Azerbaijani parallel benchmark for evaluating machine translation systems. ## Overview - **Source**: FLORES-200 devtest English sentences - **Reference translations**: Generated by GPT-5.4 (EN→AZ direction) - **Size**: 1012 sentence pairs - **Purpose**: Evaluation benchmark (NOT for training) ## Why GPT-5.4 references? Original FLORES-200 Azerbaijani references contain systematic errors: - Semantic inaccuracies ("per unit of GDP" translated as "per capita") - Terminology errors ("emissions" → "waste", "the Executive" → "government") - Inconsistencies (same entity translated differently across sentences) GPT-5.4 translations were validated against original FLORES and showed superior semantic accuracy, terminology consistency, and structural clarity. ## Usage ```python from datasets import load_dataset dataset = load_dataset("LocalDoc/en_az_translate_benchmark") test = dataset["test"] # Access pairs for example in test: print(example["en"], "→", example["az"]) ``` ## Intended use This dataset is designed as an **evaluation benchmark** for: - Comparing MT systems (NLLB, Google Translate, custom models) - Computing BLEU, chrF++, COMET scores against high-quality references - Measuring translation quality for EN↔AZ direction ## Columns | Column | Description | |--------|-------------| | `en` | English source sentence (from FLORES-200 devtest) | | `az` | Azerbaijani reference translation (GPT-5.4) | ## Citation Based on FLORES-200 devtest set. Reference translations by GPT-5.4 via OpenRouter API.

提供机构：

LocalDoc

搜集汇总

数据集介绍

构建方式

在机器翻译评估领域，构建高质量的平行语料基准至关重要。该数据集以FLORES-200开发测试集中的英语句子为源文本，通过GPT-5.4模型生成阿塞拜疆语参考译文，形成了包含1012个句对的评估基准。原始FLORES-200的阿塞拜疆语译文存在系统性语义偏差与术语不一致问题，而GPT-5.4译文经过验证，在语义准确性、术语一致性和结构清晰度方面表现更优，从而为机器翻译系统提供了可靠的评价标准。

特点

该数据集专为英语-阿塞拜疆语机器翻译评估而设计，其核心特点在于参考译文的高质量与一致性。相较于原有基准，它有效纠正了语义失真、术语误译及同一实体翻译不一致等系统错误。数据集规模适中，聚焦于评估用途，而非训练目的，确保了其在衡量不同翻译系统性能时的公正性与有效性，为BLEU、chrF++和COMET等自动评价指标提供了坚实的参考基础。

使用方法

研究人员可利用该数据集对各类机器翻译系统进行性能比较与量化评估。通过加载数据集，用户可以便捷地访问英语源句与对应的阿塞拜疆语参考译文。典型应用场景包括计算NLLB、谷歌翻译或自定义模型相对于高质量参考译文的自动评价分数，从而精准衡量英语与阿塞拜疆语双向翻译的质量，推动该语言对机器翻译技术的进步。

背景与挑战

背景概述

机器翻译领域长期致力于构建高质量平行语料库以评估系统性能，尤其在资源相对稀缺的语言对上。en_az_translate_benchmark数据集由研究团队基于FLORES-200开发测试集的英语句子构建，并利用GPT-5.4生成阿塞拜疆语参考译文，旨在为英语-阿塞拜疆语翻译任务提供可靠的评估基准。该数据集包含1012个句对，专注于解决FLORES-200原有阿塞拜疆语译文中存在的语义不准确、术语错误及不一致性问题，从而提升机器翻译模型在低资源语言方向上的评估信度与可比性。

当前挑战

该数据集核心挑战在于如何为低资源语言对建立可靠且一致的评估标准。FLORES-200原有的阿塞拜疆语译文存在系统性缺陷，如关键术语误译和语义偏差，这直接影响机器翻译系统评估的准确性。构建过程中，研究者需克服自动生成译文的质量验证难题，确保GPT-5.4产生的参考译文在语义忠实度、术语一致性与结构清晰度上优于原有标注，同时避免引入模型本身可能存在的偏见或错误，以形成真正可信的评估基准。

常用场景

经典使用场景

在机器翻译领域，评估系统性能是推动技术进步的核心环节。EN-AZ Translation Benchmark作为高质量的英语-阿塞拜疆语平行语料库，其经典使用场景在于为机器翻译模型提供标准化的评估基准。研究者利用该数据集中的1012个句子对，通过计算BLEU、chrF++和COMET等自动化指标，客观比较不同翻译系统（如NLLB、Google Translate及定制模型）在EN↔AZ方向上的翻译质量，从而为模型优化提供可靠依据。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，基于其高质量参考译文，研究者开展了针对低资源语言对的神经机器翻译模型微调实验，探索了数据增强与领域适应策略的有效性。此外，该基准被纳入跨语言评估框架，用于比较最新大语言模型在英语-阿塞拜疆语翻译任务中的零样本性能，为多语言NLP模型的公平评测提供了重要基础。

数据集最近研究