five

DiaBLa|机器翻译数据集|对话分析数据集

收藏
arXiv2019-05-31 更新2024-06-21 收录
机器翻译
对话分析
下载链接:
https://github.com/rbawden/DiaBLa-dataset
下载链接
链接失效反馈
资源简介:
DiaBLa是由爱丁堡大学和LIMSI, CNRS合作创建的一个英法双语书面对话数据集,包含144个自发对话,总计超过5700个句子。该数据集通过众包方式收集,涵盖多种对话主题,并附有细致的人工翻译质量评价。数据集的创建旨在为机器翻译模型评估提供独特资源,并分析机器翻译辅助的通信方式。DiaBLa数据集的应用领域包括机器翻译模型的评估和非正式书面交流中语言行为的分析,旨在解决机器翻译在日常书面交流中的应用问题。
提供机构:
信息学院,爱丁堡大学,苏格兰
创建时间:
2019-05-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
DiaBLa数据集通过众包方式构建,涵盖了144个英语-法语双语自发书面对话,每个对话由两名母语分别为英语和法语的参与者进行。对话通过两个神经机器翻译系统进行中介,参与者在对话过程中对翻译质量进行细粒度的句子级评估。数据集还包含了手动规范化的版本和参考翻译,确保了数据集的多样性和真实性。
特点
DiaBla数据集的显著特点在于其自发性和多样性,涵盖了多种角色扮演场景,确保了对话内容的丰富性和真实性。此外,数据集提供了句子级的翻译质量评估,由对话参与者在对话过程中实时进行,确保了评估的即时性和准确性。数据集还包含了手动规范化的版本和参考翻译,为机器翻译模型的评估提供了可靠的基准。
使用方法
DiaBla数据集可用于机器翻译模型的评估和研究,特别是在非正式书面对话场景中的应用。研究者可以通过数据集中的句子级翻译质量评估来比较不同翻译模型的性能,并分析翻译错误的具体类型。此外,数据集还可用于研究机器翻译对人类交互行为的影响,尤其是在翻译错误出现时的应对策略。
背景与挑战
背景概述
DiaBLa数据集由爱丁堡大学和巴黎-萨克雷大学的研究团队于2019年创建,旨在为机器翻译(MT)系统在非正式书面双语对话中的评估提供一个独特的资源。该数据集包含了144个由英语和法语母语者进行的自发对话,涵盖了多种角色扮演场景,并附有详细的句子级MT质量评估。DiaBLa数据集不仅为MT模型的自动评估提供了测试集,还为研究MT系统在实际对话中的表现提供了丰富的语料库。通过参与者在对话过程中对翻译质量的实时评估,该数据集揭示了不同MT系统在处理对话翻译时的细微差异,推动了MT在非正式对话中的应用研究。
当前挑战
DiaBLa数据集在构建过程中面临多项挑战。首先,如何确保对话的自发性与自然性,同时避免参与者因使用MT系统而产生的语言适应问题,是一个重要的挑战。其次,对话中的非正式语言、拼写错误和文化参考等现象增加了翻译的复杂性,要求MT系统具备处理这些非标准语言现象的能力。此外,数据集的构建还需要解决如何有效收集参与者对MT质量的评估,并确保这些评估能够准确反映翻译的实际表现。最后,如何在不同语言对之间扩展该数据集,并保持其多样性和实用性,也是未来研究中需要克服的难题。
常用场景
经典使用场景
DiaBLa数据集最经典的使用场景在于机器翻译(MT)模型的评估。该数据集包含了144个英语-法语的双语自发对话,涵盖了多种角色扮演场景,并附有细粒度的句子级翻译质量评估。这些对话由母语为英语和法语的参与者通过神经机器翻译系统进行交流,参与者在对话过程中对翻译质量进行实时评估,为MT模型的性能提供了宝贵的反馈。
实际应用
在实际应用中,DiaBLa数据集为开发和优化跨语言即时通讯工具提供了重要支持。随着机器翻译技术在社交网络和聊天应用中的普及,MT系统需要能够处理各种非正式语言、拼写错误和语法不规范的情况。DiaBLa数据集通过模拟真实的对话场景,帮助开发者更好地理解用户在实际使用中可能遇到的问题,从而提升翻译系统的用户体验。
衍生相关工作
DiaBLa数据集的发布激发了大量相关研究工作,尤其是在机器翻译和跨语言交互领域。许多研究者利用该数据集进行MT模型的改进和评估,特别是在处理上下文感知翻译和对话一致性方面。此外,该数据集还为研究用户在MT系统辅助下的交互策略提供了基础,例如如何应对翻译错误以及如何调整语言表达以适应翻译系统的局限性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

google/speech_commands

SpeechCommands数据集包含一秒钟的.wav音频文件,每个文件包含一个单独的英语单词或背景噪音。这些单词来自一组命令,并由不同的说话者录制。数据集有两个版本,v0.01和v0.02,分别包含64,727和105,829个音频文件。数据集的主要任务是关键词检测,即通过分类将话语分类为预定义的单词集。数据集的语言为英语,数据集的创建目的是为了帮助训练简单的机器学习模型。

hugging_face 收录

QM9

QM9数据集包含134k个有机小分子化合物的量子化学计算结果,涵盖了12个量子化学性质,如分子能量、电离能、电子亲和能等。

quantum-machine.org 收录