rbawden/DiaBLa
收藏数据集概述
数据集名称
DiaBLa: Bilingual dialogue parallel evaluation set
数据集摘要
DiaBLa是一个用于评估机器翻译(MT)的英语-法语数据集,特别针对非正式、书面双语对话。该数据集包含144个自发对话(超过5,700个句子),涉及母语为英语和法语的说话者,通过两种神经MT系统在多种角色扮演场景中进行交流。每个对话都附有对话参与者自己对MT质量的细粒度句子级评价,以及手动规范化和参考翻译。
支持的任务
翻译
语言
- 英语(主要为英国英语)
- 法语
数据集结构
- 数据实例数量:5748
- 下载数据集大小:37 MB
数据字段
- id:字符串
- orig:字符串
- norm:字符串
- mt:字符串
- ref:字符串
- utterance_meta:字典,包含:
- eval_judgment:字符串
- eval_verbatim:字符串
- eval_problems:列表,包含最多5个字符串
- lang:字符串
- dialogue_meta:字典,包含:
- start_time:字符串
- end_time:字符串
- translation_model:字符串
- final_evaluation_user1:字典
- final_evaluation_user2:字典
- scenario:列表,包含3个列表,每个列表包含2个字符串
- user1:字典
- user2:字典
- dialogue_history:列表,包含字典
数据集创建
源数据
- 数据收集:通过专门的在线聊天平台收集,涉及母语为英语和法语的参与者。
- 数据标注:对话参与者实时提供MT质量评价,手动规范化和参考翻译由论文作者完成。
个人和敏感信息
数据集不包含个人和敏感信息,参与者被指导不提供任何个人信息,并假设角色扮演场景中的角色。
许可证信息
数据集根据CC BY-SA 4.0许可证提供。
引用信息
@article{bawden_DiaBLa:-A-Corpus-of_2021, author = {Bawden, Rachel and Bilinski, Eric and Lavergne, Thomas and Rosset, Sophie}, doi = {10.1007/s10579-020-09514-4}, title = {DiaBLa: A Corpus of Bilingual Spontaneous Written Dialogues for Machine Translation}, year = {2021}, journal = {Language Resources and Evaluation}, publisher = {Springer Verlag}, volume = {55}, pages = {635--660}, url = {https://hal.inria.fr/hal-03021633}, pdf = {https://hal.inria.fr/hal-03021633/file/diabla-lre-personal-formatting.pdf}, }



