five

SQuTR

收藏
github2026-02-14 更新2026-02-15 收录
下载链接:
https://github.com/ttoyekk1a/SQuTR-Spoken-Query-to-Text-Retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
SQuTR(语音查询到文本检索)是一个大规模双语基准数据集,旨在评估信息检索(IR)系统在现实和复杂声学扰动下的鲁棒性。该数据集扩展了6个流行的文本检索数据集到语音领域,提供了37,317个复杂查询,覆盖6个领域,使用200个真实说话人合成,并在4个噪声级别下进行评估。

SQuTR (Speech Query to Text Retrieval) is a large-scale bilingual benchmark dataset aimed at evaluating the robustness of information retrieval (IR) systems under realistic and complex acoustic perturbations. This dataset extends six popular text retrieval datasets into the speech domain, providing 37,317 complex queries spanning six domains, synthesized using 200 real speakers and evaluated across four noise levels.
创建时间:
2026-01-31
原始信息汇总

SQuTR: 口语查询到文本检索鲁棒性基准数据集概述

数据集简介

SQuTR(Spoken Query-to-Text Retrieval)是一个大规模双语基准数据集,旨在评估信息检索系统在现实复杂声学扰动下的鲁棒性。该数据集将6个流行的文本检索数据集扩展至口语领域,包含37,317个复杂查询,覆盖6个领域,由200位真实说话人合成,并在4个分级噪声水平下进行评估。

核心特性

  • 双语与多领域:包含来自MTEB(英语)和C-MTEB(中文)的6个子集,涵盖维基百科、金融、医疗和百科全书领域。
  • 高保真合成:使用CosyVoice-3合成,语音配置文件来自200位真实说话人(不同性别、年龄和口音),音频总时长为190.4小时
  • 真实噪声建模:包含来自DEMAND和NOISEX-92数据集的17类真实环境噪声(如交通、办公室、街道)。
  • 鲁棒性评估:模拟四种声学条件:纯净、低噪声(20dB)、中噪声(10dB)和高噪声(0dB)
  • 严格质量控制:所有样本均经过三阶段验证流程:自动过滤、基于ASR的词汇一致性检查以及10名双语标注员的人工审核。

数据集生成流程

  1. 文本处理:对原始MTEB/C-MTEB查询中的数字、符号和缩写进行规范化。
  2. 语音合成:每个查询使用不同的说话人配置文件合成三个候选版本;选择WER/CER(通过Whisper/Paraformer)最低的版本,以最小化合成伪影。
  3. 声学增强:基于RMS能量缩放混合噪声,以实现精确的信噪比水平。
  4. 验证:人工参与循环验证自然度、语义一致性和噪声水平准确性。

数据集统计

子集构成

语言 子集 来源 领域 查询数量
英语 NQ MTEB 维基百科 3,452
HotpotQA MTEB 维基百科 7,405
FiQA MTEB 金融 648
中文 MedicalRetrieval C-MTEB 医疗 1,000
DuRetrieval C-MTEB 百科全书 2,000
T2Retrieval C-MTEB 百科全书 22,812
总计 37,317

总体指标

指标 英语 中文 总计
#唯一查询 11,505 25,812 37,317
#说话人 100 100 200
总语音时长 76.4 h 114.0 h 190.4 h
平均语音时长 5.98 s 3.98 s 4.59 s
#评估实例 46,020 103,248 149,268

数据结构

SQuTR/ └── source_data/ ├── en/ (英语数据集) │ ├── fiqa/ │ │ ├── audio_clean/ # 纯净原始音频文件 │ │ ├── audio_noise_snr_0/ # 信噪比0dB的音频 │ │ ├── audio_noise_snr_10/ # 信噪比10dB的音频 │ │ ├── audio_noise_snr_20/ # 信噪比20dB的音频 │ │ ├── qrels/ # 查询相关性判断 │ │ ├── corpus.jsonl # 文本语料库文档 │ │ ├── queries.jsonl # 原始文本查询 │ │ ├── queries_with_audio_clean.jsonl # 纯净音频查询元数据 │ │ ├── queries_with_audio_noise_snr_0.jsonl # 0dB噪声查询元数据 │ │ ├── queries_with_audio_noise_snr_10.jsonl # 10dB噪声查询元数据 │ │ └── queries_with_audio_noise_snr_20.jsonl # 20dB噪声查询元数据 │ ├── hotpotqa/ │ └── nq/ └── zh/ (中文数据集) ├── DuRetrieval/ ├── MedicalRetrieval/ └── T2Retrieval/

数据示例

中文数据集示例: 语料库 (corpus.jsonl): json {"_id":"30000001","text":"您好:脂肪瘤属良性肿瘤但术后容易复发,患者可以采用中草药消除,而且安全,不会对身体产生任何的伤害及毒副作用,治愈的希望也是比较大的。","title":""}

纯净音频查询 (queries_with_audio_clean.jsonl): json {"_id": "1", "text": "多形型脂肪肉瘤(左阴囊内)", "audio": "1.wav"}

含噪音频查询 (queries_with_audio_noise_snr_0.jsonl): json {"_id": "1", "text": "多形型脂肪肉瘤(左阴囊内)", "audio": "noise_snr0_1.wav", "snr_db": 0, "noise_id": "demand_SCAFE_ch07"}

英文数据集示例: 语料库 (corpus.jsonl): json {"_id": "3", "title": "", "text": "Im not saying I dont like the idea of on-the-job training too, but you cant expect the company to do that. Training workers is not their job - theyre building software. Perhaps educational systems in the U.S. (or their students) should worry a little about getting marketable skills in exchange for their massive investment in education, rather than getting out with thousands in student debt and then complaining that they arent qualified to do anything."}

纯净音频查询 (queries_with_audio_clean.jsonl): json {"_id": "4641", "text": "Where should I park my rainy-day / emergency fund?", "audio": "4641.wav"}

含噪音频查询 (queries_with_audio_noise_snr_0.jsonl): json {"_id": "4641", "text": "Where should I park my rainy-day / emergency fund?", "audio": "noise_snr0_4641.wav", "snr_db": 0, "noise_id": "demand_NRIVER_ch13"}

检索性能基准

评估了多种检索模型,使用级联管道(ASR + 嵌入)和端到端方法。结果报告为 nDCG@10 / MRR@10

1. 中文子数据集检索性能

(包含BM25、BGE系列、EmbeddingGemma-300M、Multilingual-E5-Large、Qwen3系列及Omni-Embedding-Nemotron-3B等模型在不同噪声水平下的性能数据表)

2. 英文子数据集检索性能

(包含BM25、BGE系列、EmbeddingGemma-300M、Stella-EN-400M-v5、All-MiniLM-L6-v2、Multilingual-E5-Large、Qwen3系列及Omni-Embedding-Nemotron-3B等模型在不同噪声水平下的性能数据表)

注: 级联系统使用 Paraformer-Large 处理中文,使用 Whisper-Large-v3 处理英文ASR。标记为“-”的模型未在该特定语言的文本上进行训练。

ASR性能基准

评估了代表性ASR模型在所有噪声水平下的性能,为级联检索系统提供基线。

1. 英文子数据集(词错误率 - WER %)

(包含Whisper-Large-V3、Qwen3-ASR-1.7B、GLM-ASR-Nano、Fun-ASR-Nano、SenseVoice-Small等模型在不同噪声水平下的WER数据表)

2. 中文子数据集(字错误率 - CER %)

(包含Paraformer-Large、Qwen3-ASR-1.7B、Fun-ASR-Nano、GLM-ASR-Nano、SenseVoice-Small、Whisper-Large-V3等模型在不同噪声水平下的CER数据表)

安装与使用

1. 环境设置

bash git clone https://github.com/ttoyekk1a/SQuTR-Spoken-Query-to-Text-Retrieval.git cd SQuTR-Spoken-Query-to-Text-Retrieval pip install -r requirements.txt

端到端检索示例:Omni-Embedding

使用NVIDIA Omni-Embedding (Nemotron-3B)进行端到端音频检索。 bash bash scripts/retrieval/run_omni_emb.sh

级联检索示例:Whisper + BGE

使用Whisper-Large-V3进行ASR,使用BAAI/bge-base-en-v1.5进行稠密检索。

  1. 运行Whisper ASR转录音频查询: bash bash scripts/asr/run_whisper_large_v3.sh

  2. 使用BGE运行稠密检索评估: bash bash scripts/retrieval/run_mteb_dense.sh

级联检索示例:BM25

使用ASR输出在FiQA子集上评估词汇检索(BM25)。 bash bash scripts/retrieval/run_bm25.sh

搜集汇总
数据集介绍
main_image_url
构建方式
在语音信息检索领域,为了应对现实环境中复杂声学扰动对系统性能的挑战,SQuTR数据集的构建采用了系统化的生成流程。该流程以MTEB和C-MTEB中六个经典文本检索数据集为基础,首先对原始查询进行数字、符号及缩写的规范化处理。随后,利用CosyVoice-3语音合成模型,从200位真实说话者的语音档案中生成高保真音频,并通过自动语音识别模型筛选词错误率最低的版本以确保语音质量。为了模拟真实噪声环境,数据集引入了来自DEMAND和NOISEX-92的17类环境噪声,并基于均方根能量缩放技术混合出四个精确的信噪比等级。整个生成过程还包含自动化过滤、基于ASR的词汇一致性检查以及十位双语标注员参与的三阶段人工验证,从而保证了数据的语义准确性与声学真实性。
特点
SQuTR数据集在语音查询到文本检索的评估中展现出多维度特征。其核心在于双语与多领域的覆盖,整合了英文与中文语境下的六个子集,涵盖维基百科、金融、医疗及百科全书等多个专业领域,共计37,317条复杂查询。数据集通过高保真语音合成技术,模拟了200位具有不同性别、年龄与口音的真实说话者,生成长达190.4小时的音频数据,有效捕捉了语音的多样性。更为突出的是,它系统性地建模了现实世界中的声学条件,提供了清洁、低噪声、中噪声与高噪声四个等级的噪声环境,并基于17类真实环境噪声进行增强,为评估检索系统在噪声干扰下的鲁棒性提供了严谨的基准。
使用方法
针对SQuTR数据集的使用,研究者可采用端到端或级联两种主流检索范式进行系统评估。在端到端范式中,用户可直接加载如Omni-Embedding-Nemotron-3B等模型,通过指定数据目录、音频路径及查询文件,执行音频到文本的嵌入与检索,结果将自动保存至预设日志路径。对于级联范式,典型流程包含自动语音识别与稠密检索两个阶段:首先利用Whisper或Paraformer等ASR模型将音频查询转录为文本,生成包含识别结果的元数据文件;随后,使用如BGE系列的嵌入模型,基于转录文本与语料库进行相似度计算与排序,最终通过标准评估指标如nDCG@10与MRR@10衡量性能。数据集提供了完整的脚本与命令行接口,支持用户灵活配置模型、批次大小及评估参数,便于复现与比较不同检索架构在多变声学条件下的表现。
背景与挑战
背景概述
在语音交互日益成为信息检索主流界面的背景下,现实环境中的复杂声学扰动往往导致系统性能显著下降。SQuTR数据集应运而生,作为一个大规模双语基准,旨在评估信息检索系统在真实复杂声学条件下的鲁棒性。该数据集由研究社区于近期构建,通过扩展六个流行的文本检索数据集至语音领域,涵盖了维基百科、金融、医疗和百科全书等多个专业领域,共计37,317条复杂查询。其核心研究问题聚焦于如何提升语音查询在噪声环境下的检索准确性与稳定性,对推动跨模态信息检索和鲁棒语音处理技术的发展具有重要影响力。
当前挑战
SQuTR数据集所针对的领域挑战在于,传统语音查询检索系统在嘈杂环境中性能急剧退化,难以维持高精度跨模态匹配。具体而言,该领域需解决声学变异下语音识别错误传播至检索阶段的累积误差问题,以及多语言、多领域查询的语义一致性保持难题。在构建过程中,挑战体现在合成语音的高保真度与自然度平衡,需从200名真实说话者中筛选最优语音样本以最小化合成伪影;同时,模拟真实世界噪声环境时,需精确控制四个等级的信噪比,并确保17类环境噪声的混合符合物理声学特性,这要求复杂的声学建模与严格的质量控制流程。
常用场景
经典使用场景
在语音信息检索领域,SQuTR数据集为评估检索系统在复杂声学环境下的鲁棒性提供了标准化的基准平台。该数据集通过将六个主流文本检索数据集扩展至语音领域,并引入多级真实环境噪声,使得研究人员能够系统性地测试和比较不同检索模型在从纯净到高噪声干扰条件下的性能表现。其经典使用场景集中于模拟现实世界中的嘈杂环境,例如交通枢纽、办公场所或公共街道,从而检验语音查询到文本检索系统的实际可用性与稳定性。
实际应用
在实际应用层面,SQuTR数据集能够直接服务于需要高鲁棒性语音交互的智能系统,例如车载语音助手、嘈杂工厂环境下的工业查询系统,或在公共场合使用的多语言信息检索平台。数据集涵盖的金融、医疗、百科等多领域内容,使其可应用于智能客服、专业领域知识库语音检索等具体场景。通过在该数据集上训练和评估,工程团队能够开发出在复杂声学条件下仍保持高准确率的语音检索产品,提升终端用户体验。
衍生相关工作
围绕SQuTR数据集,已衍生出一系列专注于提升噪声鲁棒性的经典研究工作。这些工作主要集中于改进端到端语音检索架构、设计抗噪声的语音表征学习算法,以及开发更稳健的自动语音识别与文本检索级联系统。例如,基于该数据集的基准测试催生了针对强噪声环境的专用嵌入模型优化,以及融合多模态信号的检索框架探索。这些衍生研究共同推动了语音检索技术向更实用、更可靠的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作