mt-doclevel-ab-test

Hugging Face2025-06-19 更新2025-06-20 收录

下载链接：

https://huggingface.co/datasets/Supertext/mt-doclevel-ab-test

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于比较DeepL和Supertext两个商业机器翻译系统性能的数据集，包含了文档级别的翻译和专业人士的评分。数据集覆盖了四种语言方向，通过专业翻译人员对具有完整文档上下文的段落的评估来进行翻译质量的评价。研究结果表明，在四种语言方向中的三种，Supertext表现出更优的连贯性。该数据集旨在推动对机器翻译质量评估更加敏感于上下文的方法的研究。

This is a dataset for comparing the performance of two commercial machine translation systems, DeepL and Supertext. It includes document-level translations and professional evaluative ratings. The dataset covers four language directions, with translation quality assessed by professional translators evaluating paragraphs provided with complete document-level context. Research results indicate that Supertext demonstrates superior coherence in three out of the four language directions. This dataset is intended to advance research into more context-sensitive methods for machine translation quality assessment.

创建时间：

2025-06-16

原始信息汇总

数据集概述：A/B Test Supertext vs DeepL

基本信息

数据集名称：A/B Test Supertext vs DeepL
许可证：CC BY-SA 4.0
任务类别：翻译
语言：英语 (en)、德语 (de)、意大利语 (it)、法语 (fr)
标签：Supertext、DeepL、Translation、A/B-test
大小类别：1K<n<10K

数据集配置

数据集包含以下四种语言对的配置：

de-enGB
- 特征：
  - source、translation_A、translation_B、A、equal、B、label_A、label_B、text、text_type
- 数据量：
  - 训练集：390个样本，99,615字节
- 下载大小：51,640字节
- 数据集大小：99,615字节
de-frCH
- 特征：
  - source、translation_A、translation_B、A、equal、B、label_A、label_B、text、text_type
- 数据量：
  - 训练集：385个样本，106,345字节
- 下载大小：55,015字节
- 数据集大小：106,345字节
de-itCH
- 特征：
  - source、translation_A、translation_B、A、equal、B、label_A、label_B、text、text_type
- 数据量：
  - 训练集：378个样本，102,833字节
- 下载大小：54,128字节
- 数据集大小：102,833字节
en-deCH
- 特征：
  - source、translation_A、translation_B、A、equal、B、label_A、label_B、text、text_type
- 数据量：
  - 训练集：330个样本，99,510字节
- 下载大小：49,779字节
- 数据集大小：99,510字节

数据集描述

目的：比较DeepL和Supertext两种商业机器翻译系统在未分段文本上的性能。
评估方法：专业译员在完整文档级上下文中评估翻译质量。
主要发现：文档级分析显示在四种语言方向中的三种中更倾向于Supertext，表明其在长文本中的一致性更优。

引用信息

如需使用该数据集，请引用以下论文：

@misc{flückiger2025comparisontranslationperformancedeepl, title={A comparison of translation performance between DeepL and Supertext}, author={Alex Flückiger and Chantal Amrhein and Tim Graf and Frédéric Odermatt and Martin Pömsl and Philippe Schläpfer and Florian Schottmann and Samuel Läubli}, year={2025}, eprint={2502.02577}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.02577}, }

数据集来源

代码仓库：https://github.com/Supertext/evaluation_deepl_supertext
论文：https://arxiv.org/abs/2502.02577

搜集汇总

数据集介绍

构建方式

在机器翻译系统日益依赖大语言模型的背景下，该数据集通过专业译员对未分段文本的翻译质量评估构建而成。研究团队选取DeepL和Supertext两大商业翻译系统，在四种语言方向上进行文档级翻译对比。原始文本的段落边界以空行形式保留，专业译员在完整文档语境下对翻译片段进行标注，形成包含源文本、双系统译文及人工评分的结构化数据。数据收集过程严格遵循学术规范，确保评估结果反映真实场景下的翻译性能。

特点

数据集突出呈现文档级机器翻译的对比特性，包含德英、德法、德意及英德四种语言对共1483个样本。每个样本记录源文本、两种系统译文及专业译员的三元评估标签（A/B/等值），并标注文本类型信息。独特之处在于保留原始文档的段落结构，支持上下文相关的翻译质量分析。实验数据表明，在文档级评估中Supertext在四分之三语言方向上表现更优，为研究大语境下翻译一致性提供重要实证依据。

使用方法

研究者可通过HuggingFace数据集库直接加载特定语言对子集，如'en-deCH'配置项包含330个英德翻译样本。数据集支持对翻译系统进行细粒度分析，包括段落级质量对比、文本类型影响评估等。使用时应遵循CC BY-SA 4.0许可协议，建议结合配套论文中的评估方法论。空行作为原始文档段落边界标记，在预处理时需予以保留以确保上下文完整性。官方GitHub仓库提供辅助分析脚本，便于复现论文中的实验结果。

背景与挑战

背景概述

在机器翻译领域，随着大型语言模型（LLMs）的广泛应用，评估翻译系统在长文本上下文中的表现成为研究热点。mt-doclevel-ab-test数据集由Supertext团队于2025年创建，旨在比较DeepL和Supertext两种商业机器翻译系统在文档级翻译任务中的性能差异。该数据集涵盖了英语、法语、德语和意大利语之间的多语言翻译任务，并包含专业翻译人员对翻译质量的评估结果。研究表明，虽然片段级评估显示两种系统在多数情况下表现相近，但在文档级分析中Supertext在三个语言方向上表现更优，凸显了其在长文本翻译中的一致性优势。这一发现推动了机器翻译评估方法向更注重上下文敏感性的方向发展。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，如何准确评估机器翻译系统在文档级上下文中的表现是一个复杂问题，需要解决长文本翻译中的一致性、连贯性和上下文依赖性等难题；在构建过程中，确保专业翻译人员评估的客观性和一致性是一大挑战，同时处理多语言文本的段落边界和格式统一也需要精细的设计。此外，数据集规模相对较小，可能限制其在某些应用场景下的泛化能力。

常用场景

经典使用场景

在机器翻译领域，mt-doclevel-ab-test数据集为研究者提供了对比不同商业翻译系统性能的基准。该数据集通过专业译者对DeepL和Supertext的文档级翻译进行评分，特别适用于评估翻译系统在长文本上下文中的一致性表现。其多语言配置支持跨语言翻译质量的系统性比较，为机器翻译模型的上下文敏感度研究提供了实证基础。

实际应用

在实际应用中，该数据集可直接指导企业选择适合自身需求的翻译解决方案。本地化服务提供商可依据其评估结果优化工作流程配置，教育机构能基于标注数据开发翻译质量评估课程。多语言内容平台更可借鉴其评估框架，建立自有的翻译系统筛选机制，确保用户获得上下文连贯的多语言内容。

衍生相关工作

基于该数据集的研究催生了多项关于神经网络翻译系统评估的创新工作。部分学者扩展了其评估框架至低资源语言对，另有研究团队开发了基于该数据集的自动评估指标。数据集作者后续发表的上下文敏感评估方法论，已成为机器翻译领域的重要参考文献，推动了WMT等国际评测中文档级评估轨道的设立。

以上内容由遇见数据集搜集并总结生成