SQuTR
收藏arXiv2026-02-13 更新2026-02-17 收录
下载链接:
https://github.com/ttoyekk1a/SQuTR-Spoken-Query-to-Text-Retrieval
下载链接
链接失效反馈官方服务:
资源简介:
SQuTR是一个用于评估语音查询到文本检索系统鲁棒性的大规模基准数据集,由多个研究机构联合创建。该数据集整合了来自六个广泛使用的英文和中文文本检索数据集的37,317个独特查询,覆盖金融、多跳问答、开放域问答、医学等多个领域。数据集通过200名真实说话者的语音配置文件合成语音,并在受控的信噪比水平下混合了17类真实环境噪声,从而实现了从安静到高噪声条件下的可重复鲁棒性评估。SQuTR旨在解决现有评估数据集在复杂声学扰动下评估语音查询检索系统鲁棒性不足的问题,为相关研究提供了标准化的测试平台。
Jointly developed by multiple research institutions, SQuTR is a large-scale benchmark dataset for evaluating the robustness of speech query-to-text retrieval systems. It integrates 37,317 unique queries sourced from six widely used English and Chinese text retrieval datasets, covering multiple domains including finance, multi-hop question answering (QA), open-domain QA, and medical research. The dataset synthesizes speech using voice profiles from 200 real speakers, and mixes 17 types of real-world environmental noises at controlled signal-to-noise ratio (SNR) levels, enabling reproducible robustness evaluations across conditions ranging from quiet to high-noise environments. SQuTR aims to resolve the inadequacy of existing evaluation datasets in assessing the robustness of speech query retrieval systems under complex acoustic perturbations, providing a standardized testbed for relevant research in the field.
提供机构:
华中科技大学; 香港大学; 苏州大学; 中国科学技术大学; 武汉大学; 清华大学; 东京大学
创建时间:
2026-02-13
搜集汇总
数据集介绍
构建方式
在语音信息检索领域,构建一个能够系统评估系统在复杂声学扰动下鲁棒性的基准数据集至关重要。SQuTR数据集通过整合六个广泛使用的英文和中文文本检索基准中的查询,包括FiQA-2018、HotpotQA、Natural Questions、MedicalRetrieval、DuRetrieval和T2Retrieval,共汇集了37,317条独特查询,覆盖金融、多跳问答、开放域问答、医学和通用检索等多个领域。利用CosyVoice-3语音合成技术,结合200位真实说话者的语音配置文件,将文本查询转换为高质量语音信号。在此基础上,通过从DEMAND和NOISEX-92噪声数据库中采样17类真实环境噪声,并在受控的信噪比水平下进行混合,构建了从清洁到高度嘈杂的四种声学条件,确保了评估的可重复性和系统性。
特点
SQuTR数据集的核心特点在于其设计的全面性与可控性。该数据集不仅继承了源数据集中查询的自然语言复杂性和语义多样性,涵盖了从简短关键词到长自然语言问题的多种查询类型,还通过系统化的噪声注入机制,模拟了从地铁站、公园到餐厅等16类真实环境下的声学干扰。这种设计使得SQuTR能够评估检索系统在渐进式声学压力下的性能变化,而不仅仅是孤立地测量语音识别错误。数据集提供了统一的评估协议,将每个系统视为从输入音频信号到文本文档排序列表的完整管道,直接衡量不同声学条件下的检索性能,从而填补了现有基准在端到端鲁棒性评估方面的空白。
使用方法
SQuTR数据集为研究人员提供了一个标准化的测试平台,用于评估语音查询到文本检索系统的鲁棒性。用户首先需要按照数据集提供的统一协议,将系统配置为能够处理输入音频并输出相关文本文档排序的完整管道。评估涵盖四种声学条件,通过计算nDCG@10、Recall@k和MRR@k等标准信息检索指标,系统性地分析噪声强度增加对检索性能的影响。该数据集支持对级联系统和端到端系统的比较,用户可以选择不同的自动语音识别前端与文本检索后端进行组合,或直接使用端到端模型,从而深入探究架构差异和模型规模对噪声鲁棒性的影响,推动该领域的前沿研究。
背景与挑战
背景概述
SQuTR数据集由华中科技大学、香港大学、苏州大学、中国科学技术大学、武汉大学及清华大学等机构的研究团队于2026年共同构建,旨在解决语音查询文本检索领域在复杂声学噪声环境下的鲁棒性评估难题。该数据集整合了来自六个广泛使用的英文与中文文本检索基准的37,317条独特查询,覆盖金融、医疗、多跳问答等多个领域,并通过合成200名真实说话者的语音,结合17类真实环境噪声在可控信噪比下混合,构建了从洁净到高噪声的四级声学条件。SQuTR的推出填补了现有评估实践在语音查询检索系统鲁棒性分析方面的空白,为跨系统比较与诊断研究提供了可复现的标准化测试平台。
当前挑战
SQuTR数据集致力于应对语音查询文本检索系统在现实噪声环境中的性能退化挑战,其核心在于评估系统在声学扰动下的鲁棒性。具体挑战包括:在领域问题层面,现有基准往往局限于洁净文本查询或孤立语音识别评估,缺乏对噪声条件下端到端检索性能的系统性度量;在构建过程中,需确保合成语音的高保真度与自然性,同时精确控制多样噪声类型与信噪比水平以模拟真实声学场景,并维持跨语言、跨领域查询的语义复杂性与评估一致性。
常用场景
经典使用场景
在语音信息检索领域,SQuTR数据集为评估语音查询到文本检索系统的鲁棒性提供了标准化测试平台。该数据集通过整合来自六个广泛使用的英文和中文文本检索基准的真实查询,覆盖金融、医疗、多跳问答等多个领域,并利用200名真实说话者的语音特征合成语音。通过引入17类真实环境噪声并在可控信噪比下混合,SQuTR模拟了从安静到高度嘈杂的渐进声学条件,使得研究人员能够系统性地分析不同噪声强度对检索性能的影响。这一设计使得SQuTR成为评估级联系统和端到端检索模型在复杂声学扰动下表现的关键工具。
实际应用
SQuTR数据集的实际应用场景广泛涉及智能语音助手、车载信息娱乐系统和智能家居设备等现实环境。在这些场景中,用户语音查询常受到背景噪声、环境干扰和说话人变异的影响,导致检索效果下降。通过使用SQuTR,开发者可以测试和优化语音检索系统在嘈杂环境下的性能,例如在公共交通、办公空间或家庭环境中。数据集的多样化噪声类别和可控信噪比设计,使得系统能够在从低噪声到高噪声的连续谱系中进行稳健性调优,从而提升实际部署中的用户体验和系统可靠性。
衍生相关工作
SQuTR数据集的推出促进了语音检索鲁棒性研究的一系列衍生工作。基于该基准,研究者开发了更先进的级联检索系统,结合高性能ASR前端与稠密检索后端,以减轻噪声引起的转录错误传播。同时,端到端语音检索模型如Omni-Embed-Nemotron-3B等直接映射语音到检索表示的方法得到进一步探索,旨在绕过显式转录步骤。此外,SQuTR启发了对多语言、多模态检索鲁棒性的扩展研究,推动了噪声自适应训练技术和鲁棒性评估协议的标准化,为语音信息检索领域的持续创新提供了坚实基础。
以上内容由遇见数据集搜集并总结生成



