DiaBLa English-French MT dialogue dataset

github2024-01-19 更新2024-05-31 收录

下载链接：

https://github.com/rbawden/DiaBLa-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于评估机器翻译（MT）在非正式、书面双语对话中的英语-法语数据集。测试集包含来自144个自发、书面英法对话的5,700多句话。对话由两种神经MT系统（基线RNN和轻度上下文RNN模型）中介，每个对话关联12种不同场景之一。参与者实时评估MT系统的质量，对话收集后进行匿名化和必要的手动规范化处理，所有句子都有参考翻译。

A dataset for evaluating machine translation (MT) in informal, written bilingual dialogues between English and French. The test set comprises over 5,700 sentences from 144 spontaneous, written English-French dialogues. These dialogues were mediated by two neural MT systems (a baseline RNN and a lightly contextual RNN model), each associated with one of 12 different scenarios. Participants assessed the quality of the MT systems in real-time, and the dialogues were anonymized and manually normalized as necessary after collection. All sentences come with reference translations.

创建时间：

2019-03-04

原始信息汇总

数据集概述

基本信息

名称: DiaBLa English-French MT dialogue dataset
语言: 英语-法语
目的: 评估机器翻译（MT）在非正式、书面双语对话中的应用

数据集内容

测试集: 包含5,700+句子，来自144个自发的书面对话
对话特点: 由两种神经MT系统（基线RNN和轻度上下文RNN模型）中介，每个对话关联12种不同场景之一
参与者: 实时评估MT系统质量，从单语视角出发
数据处理: 对话收集后匿名化，必要时手动规范化句子，所有句子均有参考翻译

对话标注

MT质量评估: 句子级别的精细评估，由对话参与者自行完成
参考翻译: 手动制作
源句子规范化版本: 手动制作

数据集结构

原始数据: 位于DiaBLa-corpus/raw-corpus
- 源文件: diabla.en2fr_orig 和 diabla.fr2en_orig
- 参考文件: diabla.en2fr_ref 和 diabla.fr2en_ref
- 信息文件: diabla.info
使用指南: 提供脚本filter-sents-for-eval.sh用于过滤评估所需的句子

.json格式数据集

位置: dialogues/ 和 users/
内容: 包含所有标注和信息
对话文件结构: 包括开始时间、场景描述、用户信息、翻译模型和对话内容
用户文件结构: 包括用户ID、年龄、性别、语言能力等详细信息

许可证

类型: CC BY-SA 4.0

引用信息

作者: Bawden, Rachel 等
出版物: Language Resources and Evaluation
年份: 2021
DOI: 10.1007/s10579-020-09514-4

搜集汇总

数据集介绍

构建方式

DiaBLa数据集的构建基于英语与法语使用者之间的自发书面对话，涵盖了144个对话场景，共计5700余句。这些对话通过两种神经机器翻译系统（基础RNN模型和轻量级上下文RNN模型）进行翻译。每个对话均与十二种不同情境之一相关联，确保了数据的多样性和实用性。在数据收集过程中，参与者实时评估了机器翻译的质量，对话内容经过匿名化处理，并在必要时进行了人工规范化处理。所有句子均提供了人工参考翻译，确保了数据的高质量与可靠性。

特点

DiaBLa数据集的特点在于其丰富的标注信息，包括由对话参与者提供的细粒度句子级翻译质量评估、人工生成的参考翻译以及源句子的规范化版本。数据集涵盖了多种日常对话场景，确保了其在机器翻译任务中的广泛适用性。此外，数据集的JSON格式文件包含了所有对话的详细注释和用户信息，便于研究者进行深入分析与应用。

使用方法

使用DiaBLa数据集时，研究者可以从`DiaBLa-corpus/raw-corpus`目录中获取原始源文件和参考文件。源文件包含整个对话内容，包括说话者的原始句子和机器翻译的对方话语，这对于上下文翻译至关重要。参考文件则仅包含需要评估的句子。研究者可以通过提供的脚本过滤翻译结果，并使用常用指标与参考翻译进行对比评估。此外，JSON格式的语料库文件包含了所有对话的详细注释，便于进一步分析与研究。

背景与挑战

背景概述

DiaBLa English-French MT对话数据集由Rachel Bawden等人于2021年创建，旨在评估非正式书面双语对话中的机器翻译（MT）性能。该数据集包含144个自发的英法双语对话，共计5700余句，涵盖了12种不同的场景。对话通过两种神经机器翻译系统（基线RNN和轻量级上下文RNN模型）进行中介，参与者实时评估了翻译质量。数据集不仅提供了机器翻译的参考译文，还对源句子进行了手动规范化处理。该数据集在机器翻译领域具有重要影响力，特别是在上下文翻译和对话翻译的评估方面，为研究者提供了丰富的实验数据。

当前挑战

DiaBLa数据集在构建和应用过程中面临多重挑战。首先，非正式对话的翻译具有高度复杂性，涉及口语化表达、文化差异和上下文依赖性，这对机器翻译系统提出了更高的要求。其次，数据集的构建需要确保对话的自然性和多样性，同时还要处理参与者的实时反馈，这对数据收集和标注过程提出了严格的技术和操作要求。此外，参考译文的生成和句子的规范化处理需要大量的人工干预，确保数据的高质量和一致性。这些挑战不仅体现在数据集的构建过程中，也影响了其在机器翻译研究中的应用效果。

常用场景

经典使用场景

DiaBLa数据集在机器翻译领域中被广泛用于评估非正式书面双语对话的翻译质量。该数据集包含了超过5700个句子，源自144个英语和法语使用者之间的自发对话，涵盖了12种不同的场景。这些对话通过两种神经机器翻译系统进行中介，为研究者提供了丰富的上下文信息，使得该数据集成为评估上下文感知翻译模型的理想选择。

解决学术问题

DiaBLa数据集解决了机器翻译领域中的多个关键问题，特别是在非正式对话翻译中的上下文依赖性和翻译质量评估方面。通过提供详细的句子级翻译质量评估和人工参考翻译，该数据集帮助研究者深入理解翻译模型在处理口语化、非正式语言时的表现，并推动了上下文感知翻译模型的发展。

衍生相关工作

基于DiaBLa数据集，研究者们开展了多项经典工作，特别是在上下文感知机器翻译和对话系统领域。例如，一些研究利用该数据集开发了新的翻译模型，能够更好地处理对话中的上下文信息；另一些研究则专注于提升翻译质量评估的自动化程度，提出了新的评估指标和方法。这些工作进一步推动了机器翻译技术的发展，并为相关领域的研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集