CD-ESA
收藏Hugging Face2026-04-21 更新2026-04-22 收录
下载链接:
https://huggingface.co/datasets/FinnSchmidt/CD-ESA
下载链接
链接失效反馈官方服务:
资源简介:
CD-ESA(跨领域错误跨度标注数据集)是一个用于研究无参考机器翻译评估指标(即质量估计指标)在未见领域中的泛化能力的公开数据集。该数据集包含WMT23和Emea部分的4,728条翻译行和11,454条人工错误跨度标注(ESA),涵盖英语-德语、英语-韩语和英语-中文三种语言对。CD-ESA的主要目标是在领域转移条件下评估QE指标,并通过比较指标-人类一致性与标注者间一致性来避免原始指标-人类一致性可能带来的误导。数据集采用JSONL格式,每条记录包含源句子(src)、机器翻译(tgt)、MT系统(system)、语言对(lp)、领域(domain)、ESA分数(ESA_scores)和错误跨度标注(annotations)等字段。该数据集适用于计算标准元评估指标,如带平局校准的准确率和最新WMT指标共享任务中的软成对准确率。
创建时间:
2026-04-18
原始信息汇总
CD-ESA: Cross-Domain Error Span Annotation Dataset 数据集概述
数据集基本信息
- 数据集名称: CD-ESA (Cross-Domain Error Span Annotation Dataset)
- 发布平台: Hugging Face
- 数据集地址: https://huggingface.co/datasets/FinnSchmidt/CD-ESA
- 许可协议: CC BY-NC 4.0
- 支持语言: 英语、德语、韩语、中文
- 相关任务: 机器翻译、机器翻译评估、质量估计、错误跨度标注
- 标签: machine-translation, mt-evaluation, quality-estimation, error-span-annotation, WMT, datasets
数据集简介与目的
CD-ESA 数据集旨在研究无参考机器翻译评估指标(即质量估计指标)在未见领域上的泛化能力。该数据集可用于在领域转移下评估质量估计指标,并将指标-人类一致性与人际一致性进行比较,避免仅依赖原始指标-人类一致性可能产生的误导。
数据集内容与规模
- 翻译行数: 4,728 行
- 人工错误跨度标注数量: 11,454 个
- 涵盖语言对: 英语-德语、英语-韩语、英语-中文
- 数据来源领域: WMT23 和 Emea
- 机器翻译系统: 每个源句由相同的六个机器翻译系统翻译
- 标注人员: 由相同的人工标注员进行评估
数据结构
数据以 JSONL 格式存储,每行对应一个翻译,包含以下顶级字段:
src: 源语句tgt: 机器翻译结果system: 生成翻译的机器翻译系统lp: 语言对domain: 源领域 (wmt或emea)ESA_scores: 人工错误跨度标注分数annotations: 人工错误跨度标注
ESA_scores 和 annotations 字段为每个翻译存储多个人工标注,两者均为字典,以标注员 ID 为键。ESA_scores 包含相应的错误跨度标注分数,annotations 包含遵循错误跨度标注协议的标注信息。
使用方式
可通过 Hugging Face datasets 库直接加载:
python
from datasets import load_dataset
dataset = load_dataset("FinnSchmidt/CD-ESA", split="train")
可按语言对或领域进行筛选: python ende = dataset.filter(lambda x: x["lp"] == "en-de") enko = dataset.filter(lambda x: x["lp"] == "en-ko") enzh = dataset.filter(lambda x: x["lp"] == "en-zh") wmt = dataset.filter(lambda x: x["domain"] == "wmt") emea = dataset.filter(lambda x: x["domain"] == "emea")
引用信息
使用本数据集时,请引用以下文献:
- Schmidt et al. (2026). Who Watches the Watchmen? Humans Disagree With Translation Metrics on Unseen Domains. https://arxiv.org/abs/2604.17393
- Kocmi et al. (2024). Error Span Annotation: A Balanced Approach for Human Evaluation of Machine Translation. https://aclanthology.org/2024.wmt-1.131/
搜集汇总
数据集介绍

构建方式
在机器翻译质量评估领域,CD-ESA数据集的构建旨在探究无参考评估指标在未知领域的泛化能力。该数据集精心整合了来自WMT23和Emea两个不同领域的语料,涵盖了英语-德语、英语-韩语及英语-中文三种语言对。其核心构建逻辑在于,为每个源语句配备由相同六套机器翻译系统生成的译文,并由同一批标注人员进行错误跨度标注,从而确保了跨领域比较的一致性。数据集最终收录了4,728条翻译记录与11,454条人工标注,为评估指标在领域偏移下的表现提供了结构化基础。
特点
CD-ESA数据集的核心特征在于其跨领域对比的设计框架。它不仅提供了丰富的错误跨度标注细节,遵循了Kocmi等人提出的标注协议,更通过纳入“WMT”与“Emea”两种迥异的文本领域,模拟了真实场景中的领域迁移挑战。该数据集允许研究者将评估指标与人类标注者的一致性进行对比,同时校准因任务难度差异所导致的人类内部共识波动,从而避免了仅依赖原始指标-人类一致性可能产生的误导性结论。这种设计使得对质量估计指标的元评估更为严谨和可靠。
使用方法
为有效利用CD-ESA数据集,研究者可通过Hugging Face平台直接加载,或于本地读取JSONL格式文件。数据集支持按语言对或文本领域进行灵活筛选,例如提取特定的英德翻译数据或专注于Emea领域的样本。在具体分析中,用户可依据标注者ID访问详细的错误跨度信息与对应的ESA分数,进而计算经过平局校准的准确率或软成对准确率等标准元评估指标。这种使用方法便于深入探究不同机器翻译系统在已知与未知领域下的质量评估差异。
背景与挑战
背景概述
在机器翻译质量评估领域,无参考评估指标(Quality Estimation, QE)的跨领域泛化能力一直是核心研究议题。CD-ESA(跨领域错误跨度标注数据集)由Schmidt等人于2026年构建,旨在系统探究QE指标在未见领域中的表现可靠性。该数据集基于WMT23和Emea语料,涵盖英德、英韩、英中三对语言方向,包含4,728条翻译及11,454条人工错误跨度标注。其创新之处在于通过对比指标-人工一致性与标注者间一致性,揭示领域偏移下传统评估方法的潜在偏差,为机器翻译评估的元评估提供了严谨的基准。
当前挑战
CD-ESA致力于应对机器翻译无参考质量评估在跨领域场景中的核心挑战:当评估指标应用于训练数据分布之外的领域时,其与人类判断的一致性可能显著下降,而单纯依赖原始一致性分数会忽略人类标注本身在不同领域中的分歧差异。构建过程中的挑战则体现在多语言错误跨度标注的复杂性上,需确保不同语言对的标注遵循统一的ESA协议(Kocmi et al., 2024),并在WMT与Emea两大异构领域内,协调多名标注者对同一批译文进行系统化、可比较的误差识别,以保障数据的一致性与可比性。
常用场景
经典使用场景
在机器翻译评估领域,跨领域泛化能力的检验一直是核心挑战。CD-ESA数据集通过整合WMT23和Emea两个不同领域的翻译样本,并辅以详尽的人工错误跨度标注,为研究者提供了一个标准化的测试平台。该数据集最经典的使用场景是评估无参考翻译质量估计指标在未知领域的表现,通过对比同一批翻译系统在不同领域中的输出质量,系统性地分析指标在领域迁移下的稳定性与可靠性。
解决学术问题
该数据集主要解决了机器翻译质量评估中指标泛化能力验证的学术难题。传统评估常依赖指标与人工评分之间的原始一致性,但忽略了不同领域下人工评分者自身的一致性差异可能带来的偏差。CD-ESA通过引入领域对比和基于错误跨度标注的细粒度人工评估,使得研究者能够将指标表现与人工间一致性进行校准,从而更科学地衡量质量估计指标在未知领域的真实性能,推动了评估方法从粗放一致向校准一致的理论演进。
衍生相关工作
围绕CD-ESA数据集,已衍生出一系列聚焦于翻译质量估计与评估方法创新的研究工作。其设计思想延续并扩展了Kocmi等人提出的错误跨度标注协议,为后续研究提供了高质量的标注范本。相关经典工作包括基于该数据集开展的领域自适应质量估计模型训练、针对指标-人工一致性偏差的统计校正方法探索,以及推动WMT指标共享任务中更精细的元评估指标体系的建立,持续影响着机器翻译评估社区的研究方向。
以上内容由遇见数据集搜集并总结生成



