SpokenWOZ

Name: SpokenWOZ
Creator: 阿里巴巴达摩院
Published: 2024-03-12 16:52:02
License: 暂无描述

arXiv2024-03-12 更新2024-06-21 收录

下载链接：

https://spokenwoz.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

SpokenWOZ是一个大规模的语音-文本任务导向对话数据集，由阿里巴巴达摩院创建。该数据集包含8个领域，203,074个对话轮次，5700个对话和249小时的音频，来源于人与人之间的真实对话。SpokenWOZ特别融入了口语对话的常见特征，如逐词处理和口语语言中的推理。基于这些特征，引入了跨轮次槽和推理槽检测作为新的挑战。数据集适用于开发和评估口语任务导向对话系统，旨在解决现有数据集在真实口语对话场景中的不足。

SpokenWOZ is a large-scale speech-text task-oriented dialogue dataset created by Alibaba DAMO Academy. It encompasses 8 domains, with 203,074 dialogue turns, 5,700 dialogues and 249 hours of audio, all sourced from real human-to-human conversations. Notably, SpokenWOZ integrates common characteristics of spoken dialogues, such as word-by-word processing and reasoning inherent in spoken language. Based on these features, cross-turn slot and reasoning slot detection are introduced as novel challenges. This dataset is applicable for developing and evaluating spoken task-oriented dialogue systems, aiming to address the shortcomings of existing datasets in real-world spoken dialogue scenarios.

提供机构：

阿里巴巴达摩院

创建时间：

2023-05-22

搜集汇总

数据集介绍

构建方式

在面向任务的对话研究领域，构建贴近真实口语交互的数据集面临诸多挑战。SpokenWOZ的构建采用了扩展的Wizard-of-Oz范式，通过组织来自加拿大、新加坡、中国和南非的250名参与者进行实时电话通话，生成了5,700段人人口语对话。数据收集过程包含严格的资格测试与质量控制，确保音频通信质量与任务完成度。随后，训练有素的标注员基于自动语音识别转录文本与原始音频，对对话状态与对话行为进行精细化标注，并引入了如“backchannel”等新行为以更好建模口语特征。通过基于规则的脚本检查、人工全面审查与随机抽查三级质量控制，最终实现了超过97%的轮次级标注准确率，整个构建过程历时超过八个月。

特点

SpokenWOZ作为大规模语音-文本双模态数据集，其核心特点在于深刻捕捉并体现了真实口语对话的独特复杂性。数据集包含8个领域、20.3万轮次、5.7千段对话及249小时音频，规模远超以往口语任务对话数据集。其显著特征首先体现在对口语逐字处理现象的建模，如包含反馈信道、不流利表达及跨多轮次的不完整话语。其次，数据集天然包含了来自真实场景的自动语音识别噪声，而非人工模拟。尤为重要的是，SpokenWOZ基于对口语中常见间接表达的分析，正式引入了跨轮次槽位与推理槽位作为新的研究挑战，前者要求模型跨多轮次整合或修正槽位值片段，后者则要求模型进行时间、数学及语义层面的推理以理解用户意图。这些特点共同构成了对现有对话模型在真实口语场景下理解与生成能力的严峻考验。

使用方法

SpokenWOZ为面向任务的口语对话系统研究提供了多任务评估基准。在对话状态跟踪任务中，研究者可使用联合目标准确率等指标，重点评估模型在包含自动语音识别噪声的文本或双模态输入下，对跨轮次槽位和推理槽位的精确检测与更新能力。在响应生成任务中，数据集支持策略优化与端到端建模两种设定：策略优化任务在给定真实对话状态与数据库查询结果的条件下生成系统响应；端到端建模则要求模型仅基于用户输入自主完成状态跟踪、数据库查询与响应生成。研究者可利用其提供的语音与文本对齐信息，探索双模态模型的融合方法。数据集已划分训练、开发和测试集，并提供了与MultiWOZ兼容的数据格式，便于现有模型迁移与评估。通过在该数据集上的实验，能够有效揭示模型在处理口语特性方面的不足与改进方向。

背景与挑战

背景概述

在面向任务的对话系统研究领域，传统数据集多基于书面文本构建，难以捕捉真实口语对话的复杂特性，导致学术研究与实际应用场景之间存在显著鸿沟。为弥合这一差距，阿里巴巴集团、中国人民大学及密歇根大学的研究团队于2023年联合发布了SpokenWOZ数据集。该数据集作为首个大规模语音-文本双模态面向任务对话基准，涵盖了8个领域、5,700段对话、20.3万轮次及249小时真人语音通话数据，其核心研究目标在于推动口语环境下对话状态跟踪与响应生成技术的演进。通过引入跨轮次槽位与推理槽位等新颖挑战，SpokenWOZ不仅扩展了多领域对话的语义边界，更通过严格的质量控制流程确保了97%以上的标注准确率，为口语对话智能体的鲁棒性研究与跨模态建模提供了关键基础设施。

当前挑战

SpokenWOZ数据集所应对的核心领域挑战在于解决口语对话中特有的语义不完整性与噪声鲁棒性问题，具体体现为跨轮次槽位检测与推理槽位识别两大任务。前者要求模型能够从分散于多轮对话的片段中动态拼接槽位值（如身份证号的分段输入），后者则需应对时间推理、数学计算与语义推断等隐含表达的理解难题。在构建过程中，研究团队面临三重主要挑战：其一，需在保证语音数据多样性的同时控制采集成本，最终通过多国参与者协作获取了覆盖不同口音的语音样本；其二，口语对话中存在的重复、停顿、回溯等非流畅现象与自动语音识别错误引入了大量噪声，对标注一致性提出了极高要求；其三，为模拟真实场景中渐进式信息交互特性，必须设计新型标注框架以捕捉字词级处理过程，这导致标注复杂度显著高于传统书面对话数据集。

常用场景

经典使用场景

在面向任务的对话系统研究中，SpokenWOZ数据集为探索真实口语交互场景提供了关键基准。该数据集通过模拟人类电话通话，构建了包含8个领域、5.7k个对话和249小时音频的大规模语音-文本对资源。其经典应用场景聚焦于训练和评估口语任务型对话代理，特别是在处理跨轮槽位检测和推理槽位检测等新型挑战时，为模型提供了贴近现实的语言环境。研究者可利用该数据集开发能够理解口语不流畅性、自动语音识别噪声及隐含语义推理的对话系统，从而弥合书面对话研究与实际口语应用之间的鸿沟。

衍生相关工作

SpokenWOZ数据集的发布催生了一系列相关研究工作，特别是在双模态对话建模和口语特性处理方面。基于该数据集，研究者提出了多种融合语音与文本信息的双模态基线模型，如SPACE+WavLM及其对齐变体，这些工作探索了语音特征在对话状态跟踪和响应生成中的增强作用。同时，针对数据集提出的跨轮槽位检测任务，衍生出新的序列建模和增量信息整合方法。此外，大型语言模型在SpokenWOZ上的零样本性能评估工作，揭示了当前生成式模型在处理口语噪声和复杂推理时的局限性，为未来模型改进指明了方向。

数据集最近研究