dialect_eval

Name: dialect_eval
Creator: 苏黎世大学
Published: 2023-11-28 23:12:11
License: 暂无描述

arXiv2023-11-28 更新2024-06-21 收录

下载链接：

https://github.com/textshuttle/dialect_eval

下载链接

链接失效反馈

官方服务：

资源简介：

dialect_eval数据集由苏黎世大学创建，包含1997个句子，专门设计用于评估机器翻译指标在处理非标准化方言时的性能，特别是英语到两种瑞士德语方言的翻译。该数据集包括人工翻译和人工评价，用于自动机器翻译输出。此外，还创建了一个挑战集，用于测试方言变异下的指标性能。数据集的应用领域主要集中在提高机器翻译系统在处理方言和语言变体时的准确性和鲁棒性。

The dialect_eval dataset was created by the University of Zurich. It comprises 1997 sentences and is specifically designed to evaluate the performance of machine translation metrics when handling non-standardized dialects, particularly for translation tasks from English to two Swiss German dialects. This dataset includes human translations and human evaluations for automatic machine translation outputs. Additionally, a challenge set has been developed to test the performance of translation metrics under dialectal variation. The main application of this dataset focuses on enhancing the accuracy and robustness of machine translation systems when processing dialects and language variants.

提供机构：

苏黎世大学

创建时间：

2023-11-28

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估指标对非标准化方言的鲁棒性是一个关键挑战。Dialect_eval数据集的构建基于NTREX-128英语源数据，通过聘请瑞士德语伯尔尼和苏黎世方言的母语译者进行人工翻译，生成1997个句子的参考译文。同时，利用十个机器翻译系统（包括九个神经模型和一个基于规则的模型）生成翻译假设，并由母语者通过Appraise框架进行连续直接评估打分，确保评分在文档和句子级别均具有上下文感知。此外，还创建了一个挑战集，通过筛选人类评为完美的翻译假设，并手动引入语义变化，形成三组对比数据，以量化指标对拼写差异与语义变化的敏感度。

特点

该数据集专注于非标准化方言的机器翻译评估，其核心特点在于涵盖了瑞士德语两种方言的拼写变异性，这些方言缺乏统一的正字法规范，导致同一语句存在显著的拼写差异。数据集包含人工参考译文、多系统翻译假设及人类判断分数，提供了系统级和句子级的评估基准。挑战集通过构造语义等效但拼写不同的假设对，以及表面相似但语义改变的假设，精准揭示了现有指标在方言拼写变异下的局限性。数据集的构建注重控制方言偏好偏差，所有参与人员均为对应方言的母语者，增强了评估的可靠性。

使用方法

Dialect_eval数据集主要用于评估机器翻译指标对非标准化方言的鲁棒性。研究人员可基于其人类判断数据，计算指标在系统级和句子级与人类评分的相关性，如配对准确率、皮尔逊相关系数等。挑战集则用于计算成功率，以衡量指标区分拼写差异与语义变化的能力。该数据集支持对字符串基础指标（如BLEU、chrF++）和神经指标（如COMET系列）的全面评测。此外，数据集中的人工翻译和评分可用于训练或微调更鲁棒的评估模型，例如通过继续预训练或注入字符级噪声来提升对方言拼写变异的适应性。数据集的开源特性促进了跨语言方言评估研究的可重复性和扩展性。

背景与挑战

背景概述

在自然语言处理领域，随着多语言模型覆盖范围的扩展，对低资源语言及其方言变体的关注日益增长。2023年，苏黎世大学等机构的研究团队创建了dialect_eval数据集，旨在评估机器翻译指标在无标准正字法的方言上的鲁棒性。该数据集聚焦于英语到两种瑞士德语方言的翻译任务，包含人工翻译参考、人工评估分数及挑战集，核心研究问题在于揭示现有指标在非标准化方言评估中的局限性，并为开发更稳健的评估方法提供基准。这一工作推动了方言机器翻译评估的实证研究，对提升语言多样性在NLP中的包容性具有重要影响。

当前挑战

dialect_eval数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，该数据集旨在解决机器翻译指标对无标准正字法方言的评估难题，但现有指标（如BLEU、COMET等）在方言文本生成评估中可靠性不足，尤其在片段级别表现脆弱，难以处理拼写变异导致的语义等效但形式不同的翻译输出；其二，在构建过程中，由于瑞士德语缺乏标准化拼写规则，数据收集需依赖母语者的主观书写风格，这引入了拼写不一致性和方言连续体带来的边界模糊问题，同时人工评估需严格控制方言偏好偏差，并克服专业译者缺失的困难，确保数据质量与代表性成为显著挑战。

常用场景

经典使用场景

在自然语言处理领域，dialect_eval数据集为评估机器翻译指标在非标准化方言上的鲁棒性提供了关键基准。该数据集通过收集英语到瑞士德语方言的人类翻译与人工评判，构建了一个包含挑战集的评估框架，旨在系统检验现有指标在拼写变异频繁的语言变体上的可靠性。其经典应用场景聚焦于机器翻译质量评估，特别是在缺乏标准正字法的方言环境下，为研究者提供了量化分析指标性能的实证基础。

解决学术问题

dialect_eval数据集针对机器翻译评估中一个长期被忽视的学术问题：现有自动评估指标（如BLEU、COMET等）在面对非标准化方言时表现脆弱，难以准确反映翻译质量。该数据集通过实证分析揭示了这些指标在拼写变异下的局限性，尤其是在片段级别评估中与人类评判的相关性较低。其意义在于推动了鲁棒性评估方法的发展，促使研究社区关注低资源语言变体的评估挑战，并为设计更适应方言多样性的指标提供了数据支撑和方向指引。

衍生相关工作

基于dialect_eval数据集，研究社区衍生了一系列经典工作，主要集中在提升评估指标的方言鲁棒性。例如，Sun等人（2023）探索了通过多方言预训练增强指标跨方言稳健性的方法；Aepli与Sennrich（2022）则研究了字符级噪声注入对密切关联语言迁移的促进作用。这些工作借鉴了数据集的挑战集设计，进一步推动了神经指标在拼写变异建模、字符级相似性计算等方面的创新，为低资源语言变体的评估范式奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集