RADDLE

Name: RADDLE
Creator: 微软研究院
Published: 2020-12-29 16:58:49
License: 暂无描述

arXiv2020-12-29 更新2024-06-21 收录

下载链接：

http://aka.ms/raddle

下载链接

链接失效反馈

官方服务：

资源简介：

RADDLE是一个专为评估和分析面向任务的对话系统而设计的基准数据集，由微软研究院创建。该数据集包含多个领域的对话任务，旨在评估模型在有限训练数据下的泛化能力和对用户输入不同风格、模态或领域的鲁棒性。RADDLE通过包括具有有限训练数据的任务，鼓励模型发展强大的泛化能力，并提供了一个诊断检查清单，以促进对语言变化、语音错误、未见实体和域外话语等方面的详细鲁棒性分析。此外，RADDLE还提供了一个在线平台，用于模型的评估、比较和鲁棒性分析，旨在解决现有模型在鲁棒性评估中表现不佳的问题，为未来的改进提供机会。

RADDLE is a benchmark dataset developed by Microsoft Research for evaluating and analyzing task-oriented dialogue systems. It covers multi-domain dialogue tasks, aiming to evaluate models' generalization capabilities under limited training data and their robustness against diverse styles, modalities, and domains of user inputs. By incorporating tasks with limited training data, RADDLE encourages models to develop strong generalization abilities, and it also provides a diagnostic checklist to facilitate detailed robustness analysis across linguistic variations, speech errors, unseen entities, out-of-domain utterances and other relevant aspects. Additionally, RADDLE offers an online platform for model evaluation, comparison and robustness analysis, which aims to address the poor performance of existing models in robustness evaluation and provide opportunities for future improvements.

提供机构：

微软研究院

创建时间：

2020-12-29

搜集汇总

数据集介绍

构建方式

在任务导向对话系统研究领域，构建能够反映真实世界复杂性的数据集至关重要。RADDLE数据集的构建采用了多源融合与人工众包相结合的策略，其核心语料源自MultiWOZ2.0，并在此基础上进行了精心重构。为了模拟实际应用中数据稀缺的场景，每个领域仅保留少量训练样本，例如标准设置下每个领域仅提供50个训练实例。针对鲁棒性评估，研究团队通过亚马逊众包平台，聘请高资质工作者对标准语料进行改写，生成了涵盖复述、冗长、简化及拼写错误等多种语言变体的语料。此外，通过音频级错误模拟技术生成了包含语音识别错误的语料，并利用议程模拟器与随机替换策略构建了用于评估未见实体与领域外话语的专用数据集，从而形成了一个层次丰富、挑战性强的综合性评估基准。

特点

RADDLE数据集的核心特征在于其鲜明的评估导向与对现实复杂性的高度模拟。该数据集特别强调有限数据设置，旨在评估模型在小样本情境下的泛化能力，这直接呼应了实际部署新领域对话系统时标注数据稀缺的挑战。其最具创新性的特点是引入了一套详尽的鲁棒性诊断清单，系统性地涵盖了语言变体、语音识别错误、未见实体及领域外话语等多种在真实交互中常见但常被现有基准忽略的扰动类型。数据集覆盖了旅游、酒店、餐饮等多个日常对话领域，并支持对话状态跟踪与端到端建模两种核心任务的评估，通过私有测试集与在线评估平台确保了评估的公平性与一致性。

使用方法

研究者可通过RADDLE提供的在线平台（http://aka.ms/raddle）对模型进行系统化评估与比较。使用该数据集时，首先需在提供的有限训练数据上对模型进行微调或训练，随后在标准测试集及各个鲁棒性诊断测试集上进行推理。评估结果需提交至平台，系统将自动计算并反馈各项任务的性能指标，例如对话状态跟踪采用联合目标准确率，端到端建模则采用综合了信息提供率、任务成功率和BLEU值的综合得分。平台还提供细粒度的鲁棒性分析报告，帮助研究者定位模型在特定扰动类型上的薄弱环节。对于排名靠前的提交，平台会定期提供基于人工评估的进一步验证服务。

背景与挑战

背景概述

在任务导向对话系统领域，构建能够高效处理多领域对话且具备强大泛化能力的模型一直是核心研究议题。RADDLE数据集由微软研究院等机构于2020年推出，旨在评估对话系统在有限训练数据下的泛化能力以及对多样化用户输入的鲁棒性。该数据集聚焦于模拟现实应用场景，通过整合多领域对话任务和诊断性评估工具，为预训练模型在任务导向对话中的迁移学习与鲁棒性分析提供了标准化基准，显著推动了对话系统向实用化与智能化方向发展。

当前挑战

RADDLE数据集主要应对两大挑战：在领域问题层面，它致力于解决任务导向对话系统在有限数据条件下跨领域泛化的难题，以及面对语言变异、语音识别错误、未见实体和领域外语句等复杂输入时的鲁棒性不足问题。在构建过程中，挑战体现在如何通过众包方式高质量模拟真实对话中的语言变异，并设计涵盖多维度扰动类型的诊断性评估体系，以确保数据集既能反映现实对话的复杂性，又能支持系统性的模型性能分析。

常用场景

经典使用场景

在任务导向对话系统研究领域，RADDLE数据集被广泛用于评估模型在数据稀缺场景下的泛化能力与鲁棒性。其经典使用场景聚焦于模拟现实应用中标注数据有限的新领域，通过精心设计的少量训练样本（如每个领域仅50个示例），迫使模型依赖预训练阶段习得的语言知识进行高效迁移。该数据集支持对话状态跟踪与端到端建模两大核心任务，并引入包含语言变体、语音识别错误、未见实体及领域外话语的鲁棒性诊断清单，为系统在复杂真实环境中的表现提供全面检验。

衍生相关工作

RADDLE数据集的发布催生了一系列围绕对话系统泛化与鲁棒性的经典研究工作。基于其评估框架，研究者们提出了如SOLOIST等统一的自回归对话模型，将模块化流程整合为单一预训练架构，显著提升了少样本学习效果。同时，该数据集启发了对多模态鲁棒性（如结合语音与文本预训练）、对抗性训练增强泛化能力、以及知识增强的实体理解等方向的探索。此外，RADDLE的在线评估平台与排行榜持续追踪领域进展，成为对话系统技术挑战赛（如DSTC系列）的重要参考基准，推动了整个社区向更稳健、可扩展的对话建模范式转变。

数据集最近研究