five

rbawden/DiaBLa

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rbawden/DiaBLa
下载链接
链接失效反馈
官方服务:
资源简介:
DiaBLa数据集是一个用于评估机器翻译(MT)的英法双语对话数据集。数据集包含144个自发对话(超过5700个句子),这些对话由英语和法语母语者通过两种神经机器翻译系统在角色扮演场景中进行。数据集还包含对话参与者对MT质量的细粒度句子级判断,以及手动规范化的版本和后验生成的参考翻译。数据集的目的是为对话中的机器翻译模型评估提供独特资源,并分析MT介导的通信。

The DiaBLa dataset is an English-French bilingual dialogue dataset designed for machine translation (MT) evaluation. It contains 144 spontaneous dialogues totaling over 5700 sentences, which were conducted by English and French native speakers via two neural machine translation systems in role-playing scenarios. The dataset also includes fine-grained sentence-level quality judgments of MT outputs provided by dialogue participants, as well as manually normalized dialogue versions and post-hoc generated reference translations. The purpose of this dataset is to provide a unique resource for evaluating machine translation models in conversational settings, and to analyze MT-mediated communication.
提供机构:
rbawden
原始信息汇总

数据集概述

数据集名称

DiaBLa: Bilingual dialogue parallel evaluation set

数据集摘要

DiaBLa是一个用于评估机器翻译(MT)的英语-法语数据集,特别针对非正式、书面双语对话。该数据集包含144个自发对话(超过5,700个句子),涉及母语为英语和法语的说话者,通过两种神经MT系统在多种角色扮演场景中进行交流。每个对话都附有对话参与者自己对MT质量的细粒度句子级评价,以及手动规范化和参考翻译。

支持的任务

翻译

语言

  • 英语(主要为英国英语)
  • 法语

数据集结构

  • 数据实例数量:5748
  • 下载数据集大小:37 MB

数据字段

  • id:字符串
  • orig:字符串
  • norm:字符串
  • mt:字符串
  • ref:字符串
  • utterance_meta:字典,包含:
    • eval_judgment:字符串
    • eval_verbatim:字符串
    • eval_problems:列表,包含最多5个字符串
    • lang:字符串
  • dialogue_meta:字典,包含:
    • start_time:字符串
    • end_time:字符串
    • translation_model:字符串
    • final_evaluation_user1:字典
    • final_evaluation_user2:字典
    • scenario:列表,包含3个列表,每个列表包含2个字符串
    • user1:字典
    • user2:字典
  • dialogue_history:列表,包含字典

数据集创建

源数据

  • 数据收集:通过专门的在线聊天平台收集,涉及母语为英语和法语的参与者。
  • 数据标注:对话参与者实时提供MT质量评价,手动规范化和参考翻译由论文作者完成。

个人和敏感信息

数据集不包含个人和敏感信息,参与者被指导不提供任何个人信息,并假设角色扮演场景中的角色。

许可证信息

数据集根据CC BY-SA 4.0许可证提供。

引用信息

@article{bawden_DiaBLa:-A-Corpus-of_2021, author = {Bawden, Rachel and Bilinski, Eric and Lavergne, Thomas and Rosset, Sophie}, doi = {10.1007/s10579-020-09514-4}, title = {DiaBLa: A Corpus of Bilingual Spontaneous Written Dialogues for Machine Translation}, year = {2021}, journal = {Language Resources and Evaluation}, publisher = {Springer Verlag}, volume = {55}, pages = {635--660}, url = {https://hal.inria.fr/hal-03021633}, pdf = {https://hal.inria.fr/hal-03021633/file/diabla-lre-personal-formatting.pdf}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作