MULTI3WOZ
收藏arXiv2023-07-26 更新2024-07-24 收录
下载链接:
https://github.com/cambridgeltl/multi3woz
下载链接
链接失效反馈官方服务:
资源简介:
MULTI3WOZ是由剑桥大学语言技术实验室和华为诺亚方舟实验室联合开发的大型多语言、多领域、多平行任务导向对话数据集。该数据集包含27480条对话,涵盖英语、阿拉伯语、法语和土耳其语四种语言,旨在支持多语言和跨语言的任务导向对话系统的训练与评估。数据集通过复杂的自下而上的数据收集过程生成,确保对话在文化上得到适应,并提供跨语言研究的基础。MULTI3WOZ的应用领域包括但不限于自然语言理解、对话状态跟踪、自然语言生成等,旨在解决多语言环境下对话系统的性能和文化适应性问题。
MULTI3WOZ is a large-scale multilingual, multi-domain, multi-parallel task-oriented dialogue dataset jointly developed by the Language Technology Laboratory of the University of Cambridge and Huawei Noah's Ark Lab. This dataset contains 27,480 dialogue sessions, covering four languages: English, Arabic, French, and Turkish. It is designed to support the training and evaluation of multilingual and cross-lingual task-oriented dialogue systems. The dataset is constructed via a sophisticated bottom-up data collection pipeline, which ensures cultural appropriateness of dialogues and lays a solid foundation for cross-lingual research. Application areas of MULTI3WOZ include but are not limited to natural language understanding, dialogue state tracking, natural language generation, etc., aiming to tackle the challenges of dialogue system performance and cultural adaptability in multilingual scenarios.
提供机构:
剑桥大学语言技术实验室
创建时间:
2023-07-26
原始信息汇总
Multi3WOZ 数据集概述
数据集简介
Multi3WOZ 是一个多语言、多领域、多并行的任务导向对话(ToD)数据集。该数据集规模庞大,提供四种语言的文化适应性对话,以支持多语言和跨语言 ToD 系统的训练和评估。数据集通过复杂的自底向上数据收集过程收集。
数据集亮点
- 2024-01-15:发布了改进的端到端基线。请查阅 DIALIGHT 论文 和 代码库。
- 2023-12-15:数据集已更新,修正了之前存在的部分错误。建议未来项目使用此更新版本的数据集。
数据集内容
- data.zip 包含 Multi3WOZ 数据集,涵盖四种语言:阿拉伯语(Afro-Asiatic)、英语(Indo-European)、法语(Indo-European)和土耳其语(Turkic)。每种语言包含 9,160 个多并行对话。
- code 目录包含基线代码,用于复现论文中的实验结果。提供了针对多种流行 ToD 任务的基线代码,包括自然语言理解(NLU)、对话状态跟踪(DST)、自然语言生成(NLG)和端到端建模(E2E)。
使用说明
-
运行实验前,请运行以下命令解压缩数据: bash
unzip data.zip
-
然后按照每个基线目录的说明复现报告的结果。例如,请按照 ./code/nlu/README.md 复现报告的 NLU 结果。
标注协议
请访问以下网站获取标注说明:https://cambridgeltl.github.io/multi3woz/。
问题报告
如发现任何问题,请联系:sh2091@cam.ac.uk。
搜集汇总
数据集介绍

构建方式
MULTI3WOZ 数据集的构建方式采用了一种自底向上的数据收集过程。首先,对现有的多语言任务型对话(TOD)数据集进行了系统性的概述,揭示了其属性和局限性。然后,基于 MultiWOZ 数据集的清理版本 2.3,使用 Majewska 等人提出的自底向上的基于轮廓的方法,绕过了基于翻译的设计,并区分了语言无关的抽象对话图式(即轮廓)和底层图式的适应语言的具体实现(即实际的用户和系统语句)。这种方法在大型数据集中首次得到验证,并证明了其在大型项目中的可行性:数据集包含 494,116 个由人工手动创建的对话轮次。
特点
MULTI3WOZ 数据集具有以下关键特性:1)大规模,每个语言都提供了相同数量的训练、开发和测试对话;2)提供多平行对话,所有四种语言都传达了完全相同的信息;3)支持多种 TOD 任务,包括 NLU(意图检测和槽位填充)、DST、NLG 以及端到端学习;4)本地化和文化适应,尊重每个目标语言的文化特征;5)由目标语言的母语者创建,提供自然和母语对话。
使用方法
MULTI3WOZ 数据集可用于训练和评估多语言和跨语言的任务型对话系统。它支持在单语言、多语言和跨语言设置中进行训练和评估,以及在零样本、少样本和“多”样本跨语言和跨域迁移场景中。数据集以三种标准格式发布:JSON 文件、Huggingface 存储库兼容格式和 ConvLab-3 兼容格式。
背景与挑战
背景概述
面向任务的对话系统(TOD)作为机器智能的重要应用之一,在各个领域如酒店业、医疗保健、在线购物、银行业和旅游业中发挥着重要作用。然而,创建高质量的标注数据集对于TOD来说是一个巨大的挑战,尤其是在多语言环境中。现有的多语言TOD数据集存在一些局限性,例如基于翻译的数据创建、缺乏文化适应性、规模较小、缺乏多语言平行对话以及仅关注单个TOD系统组件等。为了解决这些问题,剑桥大学语言技术实验室和华为诺亚方舟实验室的研究人员合作创建了MULTI3WOZ数据集。该数据集是一个多语言、多领域、多平行的TOD数据集,旨在为训练和评估文化适应的多语言和跨语言TOD系统提供支持。MULTI3WOZ数据集包含4种语言的对话,并提供了文化适应的对话,为多语言和跨语言TOD系统的研究提供了宝贵的资源。
当前挑战
MULTI3WOZ数据集的创建过程中遇到了一些挑战。首先,创建大规模、高质量的多语言TOD数据集需要大量时间和成本,并且需要专家和领域知识。其次,数据收集过程中需要避免翻译带来的“翻译腔”和人工性能膨胀问题。此外,还需要确保数据集的文化适应性,使其能够反映目标语言和文化的特性。最后,还需要保证数据集的连贯性和多平行性,以便进行跨语言研究和比较分析。
常用场景
经典使用场景
MULTI3WOZ数据集作为任务导向对话(TOD)系统训练和评估的基准数据集,其多语言、多领域、多平行的特性使其成为跨语言和跨文化TOD研究的理想选择。该数据集涵盖了多个领域的任务,如餐厅预订、交通查询、酒店预订等,并提供了四种语言的对话数据:英语、阿拉伯语、法语和土耳其语。这使得 MULTI3WOZ 成为训练和评估跨语言和跨文化TOD系统的宝贵资源,例如,可以用于开发能够理解并响应不同语言和文化背景用户请求的聊天机器人。
解决学术问题
MULTI3WOZ 数据集解决了当前多语言 TOD 数据集存在的几个关键问题。首先,它避免了基于翻译的设计,从而避免了“翻译腔”和人工性能膨胀的问题。其次,该数据集提供了大规模的训练数据,支持公平的多语言发展和深入的跨语言比较。第三,MULTI3WOZ 提供了多平行对话,允许跨语言研究和比较分析。第四,该数据集是本地化和文化适应的,以反映实际存在的实体和文化特征。最后,MULTI3WOZ 是由母语人士以自下而上的方式创建的,因此它提供了自然和母语的对话,避免了“翻译腔”并防止了过度的性能膨胀。
衍生相关工作
MULTI3WOZ 数据集的发布推动了跨语言和跨文化 TOD 研究的发展,并衍生了许多相关工作。例如,一些研究人员使用 MULTI3WOZ 数据集开发新的 TOD 模型,例如,能够理解并响应不同语言和文化背景用户请求的聊天机器人。此外,一些研究人员使用 MULTI3WOZ 数据集评估现有的 TOD 模型,例如,比较不同语言和文化背景下的模型性能。MULTI3WOZ 还可以用于开发新的 TOD 评估指标,例如,评估跨语言和跨文化 TOD 系统的实用性和用户体验。
以上内容由遇见数据集搜集并总结生成



