rbawden/DiscEvalMT

Name: rbawden/DiscEvalMT
Creator: rbawden
Published: 2024-06-11 07:26:11
License: 暂无描述

Hugging Face2024-06-11 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/rbawden/DiscEvalMT

下载链接

链接失效反馈

官方服务：

资源简介：

DiscEvalMT数据集是一个用于评估英语到法语机器翻译模型在处理语篇现象（如指代和词汇选择）时的表现的对比测试集。数据集包含两个子集，分别针对指代和词汇选择，每个子集包含200个实例。每个实例包含一个源句子、两个可能的翻译句子以及上下文信息，用于区分正确的翻译和对比翻译。数据集由人工创建，确保了自然性和多样性。

提供机构：

rbawden

原始信息汇总

Dataset Card for DiscEvalMT

Dataset Details

名称: DiscEvalMT
描述: 用于英语到法语机器翻译评估的对比测试集，涵盖两种话语现象：回指和词汇选择（连贯/衔接）。
语言: 英语到法语
许可证: CC-BY-SA-4.0
创建者: Rachel Bawden, Rico Sennrich, Alexandra Birch, Barry Haddow

数据集来源

仓库: https://github.com/rbawden/discourse-mt-test-sets/tree/master
论文: Bawden et al., 2018. Evaluating Discourse Phenomena in Neural Machine Translation

用途

目的: 用于测试机器翻译模型在翻译过程中使用先前语言上下文（前一句）的能力。
结构: 每个示例块包含一个前源句子和两个可能的翻译，伴随上下文，用于区分两个可能的翻译。每个实例包含一个正确翻译和一个对比翻译。
评估: 模型应根据提供的上下文对每个翻译进行排序，并评估其将正确翻译排在对比翻译之上的准确性。

使用限制

方向限制: 仅适用于从英语到法语的翻译，不适用于相反方向。
补充用途: 作为全局评估质量指标的补充。

数据集结构

分割: 每个分割（回指和词汇选择）包含200个实例。
实例格式: 每个实例包含以下字段：
- split: 分割类型（回指或词汇选择）
- ex_num: 示例编号
- type: 类型
- context_src: 前源句子
- current_src: 当前源句子
- context_trg: 前目标句子
- current_trg: 当前目标句子
- contrastive_context_trg: 对比前目标句子
- contrastive_current_trg: 对比当前目标句子
- correct_or_semicorrect: 正确或半正确标记

数据集创建

数据来源: 手工创建的示例，旨在自然、多样。
数据收集和处理: 由第一作者（母语为英国英语，双语法语）手动创建，并由法语母语者检查。
敏感信息: 数据集中不包含个人或敏感信息。

引用

BibTeX:

@inproceedings{bawden-etal-2018-evaluating, title = "Evaluating Discourse Phenomena in Neural Machine Translation", author = "Bawden, Rachel and Sennrich, Rico and Birch, Alexandra and Haddow, Barry", booktitle = {{Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)}}, month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/N18-1118", doi = "10.18653/v1/N18-1118", pages = "1304--1313" }
APA:

Bawden, R., Sennrich, R., Birch, A., & Haddow, B. (2018). Evaluating Discourse Phenomena in Neural Machine Translation. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (pp. 1304–1313). Association for Computational Linguistics.

搜集汇总

数据集介绍

构建方式

在机器翻译领域，评估模型对篇章现象的处理能力需要专门的测试集。DiscEvalMT数据集的构建过程体现了严谨的人工设计理念，其源数据由研究者手工创建，旨在模拟自然语言中的多样性和自发性。构建者作为双语专家，精心设计了涵盖指代消解和词汇选择两类篇章现象的对比实例，每个实例均包含上下文信息及正确与对比翻译选项。所有例句均经过法语母语者的校验，确保了语言的自然流畅与语法准确性，从而为评估神经机器翻译模型在篇章层面的表现提供了可靠基础。

特点

该数据集聚焦于英语到法语翻译中的篇章现象评估，其核心特征在于采用了对比性测试框架。数据集包含两个独立子集，分别针对指代消解与词汇一致性现象，每个子集均提供200个精心设计的实例。每个实例结构完整，包含源语言上下文、当前句子以及对应的正确与对比翻译，这种设计使得模型能够基于篇章信息进行歧义消解。数据规模虽小，但例句自然多样，源于字幕数据的灵感，确保了评估任务贴近真实语言使用场景，为模型在篇章连贯性方面的性能提供了精准度量。

使用方法

使用DiscEvalMT数据集时，研究者需将其作为神经机器翻译模型的补充评估工具。通过加载特定子集，模型需根据提供的上下文对正确翻译与对比翻译进行排序预测，最终以排序准确率作为评估指标。该数据集专为英语到法语翻译方向设计，不可反向使用，且假定模型已具备基本翻译能力。其应用旨在超越传统自动评价指标，深入揭示模型在篇章理解与上下文利用方面的表现，为机器翻译系统的篇章能力优化提供实证依据。

背景与挑战

背景概述

在神经机器翻译领域，传统评估方法主要依赖句子级别的自动指标，难以有效衡量涉及篇章层面的语言现象。为填补这一空白，Rachel Bawden、Rico Sennrich等研究人员于2018年共同构建了DiscEvalMT数据集，专注于评估英语到法语翻译中的指代消解与词汇选择等篇章现象。该数据集通过提供对比性测试实例，旨在推动翻译模型对超句子语境的理解与利用，为神经机器翻译的篇章能力评估提供了关键工具，促进了该领域向更细腻、上下文感知的方向发展。

当前挑战

DiscEvalMT数据集致力于解决神经机器翻译中篇章现象评估的挑战，传统自动指标如BLEU难以捕捉指代一致性或词汇连贯性等深层语言特征，导致模型性能被片面衡量。在构建过程中，研究人员面临手工创建自然且多样化的双语实例的困难，需确保对比翻译在语境中的歧义性与真实性，同时依赖双语专家的精细校验以维持语言质量，这体现了在有限数据规模下平衡语言学严谨性与数据可用性的复杂权衡。

常用场景

经典使用场景

在机器翻译领域，DiscEvalMT数据集被广泛用于评估模型在处理语篇现象时的性能。该数据集聚焦于英语到法语的翻译任务，通过提供包含前一句语境的对比测试实例，要求模型在给定上下文条件下对两个可能的翻译进行排序。这种设计使得研究者能够精确衡量模型在指代消解和词汇选择等语篇层面的表现，从而弥补传统自动评估指标在语篇连贯性评估上的不足。

实际应用

在实际应用中，DiscEvalMT数据集常被用于优化商业翻译系统和本地化工具。例如，在需要处理长文档或对话的翻译场景中，如法律文件翻译或跨语言客服系统，确保代词指代准确和术语一致性至关重要。通过在该数据集上测试和调优，翻译引擎能够更好地维持语篇连贯性，提升专业领域翻译的准确性和可读性，满足用户对高质量语境感知翻译的需求。

衍生相关工作

基于DiscEvalMT数据集，多项经典研究工作得以展开。例如，后续研究扩展了其框架至其他语言对，如英语-德语，并开发了更复杂的语境建模方法。该数据集也启发了如DiscoMT等共享任务的创建，推动社区专注于语篇感知翻译。此外，许多神经机器翻译模型，特别是那些集成注意力机制或上下文编码器的架构，都利用该数据集进行验证，促进了语境融合技术在翻译模型中的创新与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集