DoWhatISay (DOWIS)
收藏arXiv2026-03-11 更新2026-03-12 收录
下载链接:
https://github.com/MaikeZuefle/DOWIS
下载链接
链接失效反馈官方服务:
资源简介:
DOWIS是由卡尔斯鲁厄理工学院等机构联合构建的首个多语言平行语音-文本指令数据集,包含9类语音处理任务在11种语言的990条提示数据,总时长达3小时17分钟。该数据集通过专业研究人员设计基础提示及四种风格变体(正式/非正式/详细/简洁),并由母语者进行多语言翻译和真实场景录音,支持语音大模型的跨模态、跨语言评估。其创新性地将指令与任务输入解耦,可灵活适配现有评测基准,主要应用于语音识别、语音翻译等任务的现实场景性能测试,揭示了文本提示与语音提示间的显著性能差异问题。
DOWIS is the first multilingual parallel speech-text instruction dataset jointly constructed by Karlsruhe Institute of Technology and other institutions. It consists of 990 prompt samples across 11 languages for 9 categories of speech processing tasks, with a total duration of 3 hours and 17 minutes. Professional researchers designed basic prompts and four style variants (formal/informal/detailed/concise) for the dataset, and native speakers conducted multilingual translation and real-scenario audio recording, which enables cross-modal and cross-language evaluation for speech large language models. The dataset innovatively decouples instructions from task inputs, allowing flexible adaptation to existing evaluation benchmarks. It is mainly applied to real-scenario performance testing of tasks such as speech recognition and speech translation, and reveals the significant performance gap between text prompts and speech prompts.
提供机构:
卡尔斯鲁厄理工学院; 布鲁诺·凯斯勒基金会; ACC Cyfronet AGH; 克拉科夫AGH科技大学; 卡内基梅隆大学
创建时间:
2026-03-11
原始信息汇总
DOWIS 数据集概述
数据集基本信息
- 数据集名称:Do What I Say (DOWIS)
- 核心定位:一个多语言的人类录制口语和书面指令提示数据集,旨在实现对语音大语言模型在口语指令条件下的现实评估。
- 访问地址:https://huggingface.co/datasets/maikezu/dowis
- 相关论文:https://arxiv.org/abs/2603.09881
数据集规模与构成
- 涵盖语言:12种语言,包括阿尔巴尼亚语 (sq)、捷克语 (cs)、德语 (de)、英语 (en)、西班牙语 (es)、法语 (fr)、匈牙利语 (hu)、意大利语 (it)、荷兰语 (nl)、葡萄牙语 (pt)、俄语 (ru)、瑞典语 (sv)。
- 涵盖任务:11项任务,包括音频章节划分 (ACHAP)、自动语音识别 (ASR)、机器翻译 (MT)、语音到语音翻译 (S2ST)、口语问答 (SQA)、语音摘要 (SSUM)、语音翻译 (ST)、文本摘要 (TSUM)、文本到语音 (TTS)、唇语识别 (LIPREAD) 和口语理解 (SLU)。
- 提示设计:每个任务-语言对提供10个提示变体,涵盖五种风格(基础、正式、非正式、详细、简短)。
- 提示模态:文本提示和音频提示(包含女性和男性音频)。
数据集目的与特点
- 核心目标:解决语音大语言模型通常使用文本提示进行评估,而不能反映用户通过语音交互的现实场景的问题。
- 设计特点:可与任何现有基准配对,用于对语音大语言模型进行现实评估。
- 研究发现:基于DOWIS的基准测试表明,文本提示的表现持续优于口语提示,尤其在低资源和跨语言设置中。仅在具有语音输出的任务中,口语提示能缩小差距。
相关资源
- 代码仓库:包含针对
phi_multimodal和qwen_omni模型的推理与评估代码。 - 模型输出:在代码仓库的
outputs文件夹中发布。 - 评估输出:评估结果包含摘要统计、每种提示类型的结果、每种模态的结果以及整体结果。
引用信息
如需使用本工作,请引用提供的BibTex条目。
搜集汇总
数据集介绍

构建方式
在语音大语言模型评估领域,现有基准多依赖文本提示,难以反映真实语音交互场景。为弥合这一差距,DoWhatISay (DOWIS) 数据集通过系统化流程构建而成。研究团队首先邀请领域专家为九项语音与语言处理任务撰写基础英文提示,并针对正式、非正式、详细和简洁五种风格各生成两种变体,形成每任务十组提示。随后,由母语者将这些提示翻译为十种目标语言,确保语言自然性。最终,招募19名母语或高水平说话者,在模拟真实会议场景下使用个人设备录制所有语音提示,并通过基于响度的语音活动检测技术进行静音修剪,形成总计3小时17分钟的高质量平行语音-文本提示库。
特点
DOWIS 数据集的核心特征在于其首创的多语言平行语音-文本提示设计,覆盖自动语音识别、语音翻译、文本摘要等九项任务,并涵盖德语、英语、意大利语等十一种语言。该数据集提供了五种不同风格的提示变体,包括基础、正式、非正式、详细和简洁类型,每种风格包含两个实例,从而能够深入探究提示风格与模态对模型性能的交互影响。尤为重要的是,DOWIS 的指令与任务输入是解耦的,这使得其能够灵活地与任何现有下游任务基准相结合,极大地降低了进行真实语音指令跟随评估的门槛,为全面分析语音大语言模型在多样化、贴近实际的使用场景下的表现提供了关键资源。
使用方法
使用 DOWIS 数据集进行模型评估时,研究者可将其语音或文本提示与任意选定的下游任务基准数据配对。例如,在评估自动语音识别任务时,可将 DOWIS 中“请转写这段音频”的语音指令与 FLEURS 数据集的音频样本结合,输入待测模型,并对比其在使用文本指令和语音指令时的词错误率差异。该数据集支持对提示模态(语音 vs. 文本)、风格、语言以及任务类型的多维交互分析。通过系统性地组合不同要素,能够揭示模型在真实语音交互环境中的能力边界,特别是其在低资源语言、跨语言任务以及非正式口语指令下的表现,从而推动构建更稳健、更实用的语音大语言模型。
背景与挑战
背景概述
在语音大语言模型(SLLMs)快速发展的背景下,其评估通常依赖于文本提示,这难以反映用户通过语音交互的真实场景。为填补这一空白,由卡尔斯鲁厄理工学院、布鲁诺·凯斯勒基金会等机构的研究团队于2026年共同创建了DoWhatISay(DOWIS)数据集。该数据集旨在为语音指令跟随任务提供首个多语言、真人录制的平行语音与文本提示集合,覆盖自动语音识别、语音翻译、语音摘要等九类任务及十一种语言。DOWIS通过解耦指令与任务输入的设计,可与现有任意基准结合,显著提升了语音大语言模型在真实应用场景下评估的可行性与全面性,对推动语音交互技术的实用化发展具有重要影响。
当前挑战
DOWIS数据集致力于解决语音大语言模型在真实语音指令跟随评估中的核心挑战。现有基准大多采用文本提示或合成语音,难以准确衡量模型在自然语音交互下的性能,尤其在跨语言与低资源场景中表现评估存在显著偏差。构建过程中的挑战主要体现在数据采集的复杂性与成本控制:需协调多国母语者进行高质量真人录音,确保语音提示在风格、清晰度及自然度上的一致性;同时,设计涵盖不同提示风格与任务类型的平行语料,并保持与下游基准的灵活兼容,这对数据集的规模平衡与结构化提出了较高要求。
常用场景
经典使用场景
在语音大语言模型(SLLMs)的评估领域,DoWhatISay(DOWIS)数据集被广泛应用于多语言语音指令跟随能力的基准测试。该数据集通过提供九种任务类型、十一种语言及五种提示风格的人类录制平行语音与文本提示,使得研究人员能够将DOWIS与现有下游任务基准灵活结合,从而在语音指令条件下对SLLMs进行真实场景下的性能评估。这种设计特别适用于分析模型在语音与文本提示模态切换时的表现差异,以及探究提示风格、语言多样性对任务执行效果的影响,为语音交互系统的可靠性研究提供了标准化测试框架。
实际应用
在实际应用层面,DOWIS数据集为开发更鲁棒的语音助手和跨语言语音处理系统提供了关键评估工具。例如,在会议摘要、实时语音翻译、音频章节生成等场景中,用户通常通过自然语音发出指令,而DOWIS的语音提示模拟了这种真实交互环境。通过评估模型在不同语言、口音及提示风格下的表现,开发者能够识别并改进模型在语音指令理解上的薄弱环节,提升系统在多样化实际应用中的可靠性与用户体验,特别是在多语言、低资源语言的语音技术部署中具有重要指导意义。
衍生相关工作
DOWIS数据集的推出促进了语音指令跟随评估领域的一系列经典研究工作。例如,基于DOWIS的基准测试被用于分析如Phi-4 Multimodal和Qwen2.5-Omni等先进SLLMs在语音与文本提示下的性能差距,相关发现进一步激发了针对语音提示优化、跨语言泛化以及提示风格鲁棒性的模型改进研究。同时,该数据集与FLEURS、MCIF等现有基准的结合使用,为构建更全面的多模态评估框架提供了范例,推动了如SpeechInstructBench、Uro-Bench等语音指令数据集的后续发展与完善,形成了语音交互评估生态的重要一环。
以上内容由遇见数据集搜集并总结生成



