SQuTR
收藏SQuTR: 口语查询到文本检索鲁棒性基准数据集概述
数据集简介
SQuTR(Spoken Query-to-Text Retrieval)是一个大规模双语基准数据集,旨在评估信息检索系统在现实复杂声学扰动下的鲁棒性。该数据集将6个流行的文本检索数据集扩展至口语领域,包含37,317个复杂查询,覆盖6个领域,由200位真实说话人合成,并在4个分级噪声水平下进行评估。
核心特性
- 双语与多领域:包含来自MTEB(英语)和C-MTEB(中文)的6个子集,涵盖维基百科、金融、医疗和百科全书领域。
- 高保真合成:使用CosyVoice-3合成,语音配置文件来自200位真实说话人(不同性别、年龄和口音),音频总时长为190.4小时。
- 真实噪声建模:包含来自DEMAND和NOISEX-92数据集的17类真实环境噪声(如交通、办公室、街道)。
- 鲁棒性评估:模拟四种声学条件:纯净、低噪声(20dB)、中噪声(10dB)和高噪声(0dB)。
- 严格质量控制:所有样本均经过三阶段验证流程:自动过滤、基于ASR的词汇一致性检查以及10名双语标注员的人工审核。
数据集生成流程
- 文本处理:对原始MTEB/C-MTEB查询中的数字、符号和缩写进行规范化。
- 语音合成:每个查询使用不同的说话人配置文件合成三个候选版本;选择WER/CER(通过Whisper/Paraformer)最低的版本,以最小化合成伪影。
- 声学增强:基于RMS能量缩放混合噪声,以实现精确的信噪比水平。
- 验证:人工参与循环验证自然度、语义一致性和噪声水平准确性。
数据集统计
子集构成
| 语言 | 子集 | 来源 | 领域 | 查询数量 |
|---|---|---|---|---|
| 英语 | NQ | MTEB | 维基百科 | 3,452 |
| HotpotQA | MTEB | 维基百科 | 7,405 | |
| FiQA | MTEB | 金融 | 648 | |
| 中文 | MedicalRetrieval | C-MTEB | 医疗 | 1,000 |
| DuRetrieval | C-MTEB | 百科全书 | 2,000 | |
| T2Retrieval | C-MTEB | 百科全书 | 22,812 | |
| 总计 | 37,317 |
总体指标
| 指标 | 英语 | 中文 | 总计 |
|---|---|---|---|
| #唯一查询 | 11,505 | 25,812 | 37,317 |
| #说话人 | 100 | 100 | 200 |
| 总语音时长 | 76.4 h | 114.0 h | 190.4 h |
| 平均语音时长 | 5.98 s | 3.98 s | 4.59 s |
| #评估实例 | 46,020 | 103,248 | 149,268 |
数据结构
SQuTR/ └── source_data/ ├── en/ (英语数据集) │ ├── fiqa/ │ │ ├── audio_clean/ # 纯净原始音频文件 │ │ ├── audio_noise_snr_0/ # 信噪比0dB的音频 │ │ ├── audio_noise_snr_10/ # 信噪比10dB的音频 │ │ ├── audio_noise_snr_20/ # 信噪比20dB的音频 │ │ ├── qrels/ # 查询相关性判断 │ │ ├── corpus.jsonl # 文本语料库文档 │ │ ├── queries.jsonl # 原始文本查询 │ │ ├── queries_with_audio_clean.jsonl # 纯净音频查询元数据 │ │ ├── queries_with_audio_noise_snr_0.jsonl # 0dB噪声查询元数据 │ │ ├── queries_with_audio_noise_snr_10.jsonl # 10dB噪声查询元数据 │ │ └── queries_with_audio_noise_snr_20.jsonl # 20dB噪声查询元数据 │ ├── hotpotqa/ │ └── nq/ └── zh/ (中文数据集) ├── DuRetrieval/ ├── MedicalRetrieval/ └── T2Retrieval/
数据示例
中文数据集示例: 语料库 (corpus.jsonl): json {"_id":"30000001","text":"您好:脂肪瘤属良性肿瘤但术后容易复发,患者可以采用中草药消除,而且安全,不会对身体产生任何的伤害及毒副作用,治愈的希望也是比较大的。","title":""}
纯净音频查询 (queries_with_audio_clean.jsonl): json {"_id": "1", "text": "多形型脂肪肉瘤(左阴囊内)", "audio": "1.wav"}
含噪音频查询 (queries_with_audio_noise_snr_0.jsonl): json {"_id": "1", "text": "多形型脂肪肉瘤(左阴囊内)", "audio": "noise_snr0_1.wav", "snr_db": 0, "noise_id": "demand_SCAFE_ch07"}
英文数据集示例: 语料库 (corpus.jsonl): json {"_id": "3", "title": "", "text": "Im not saying I dont like the idea of on-the-job training too, but you cant expect the company to do that. Training workers is not their job - theyre building software. Perhaps educational systems in the U.S. (or their students) should worry a little about getting marketable skills in exchange for their massive investment in education, rather than getting out with thousands in student debt and then complaining that they arent qualified to do anything."}
纯净音频查询 (queries_with_audio_clean.jsonl): json {"_id": "4641", "text": "Where should I park my rainy-day / emergency fund?", "audio": "4641.wav"}
含噪音频查询 (queries_with_audio_noise_snr_0.jsonl): json {"_id": "4641", "text": "Where should I park my rainy-day / emergency fund?", "audio": "noise_snr0_4641.wav", "snr_db": 0, "noise_id": "demand_NRIVER_ch13"}
检索性能基准
评估了多种检索模型,使用级联管道(ASR + 嵌入)和端到端方法。结果报告为 nDCG@10 / MRR@10。
1. 中文子数据集检索性能
(包含BM25、BGE系列、EmbeddingGemma-300M、Multilingual-E5-Large、Qwen3系列及Omni-Embedding-Nemotron-3B等模型在不同噪声水平下的性能数据表)
2. 英文子数据集检索性能
(包含BM25、BGE系列、EmbeddingGemma-300M、Stella-EN-400M-v5、All-MiniLM-L6-v2、Multilingual-E5-Large、Qwen3系列及Omni-Embedding-Nemotron-3B等模型在不同噪声水平下的性能数据表)
注: 级联系统使用 Paraformer-Large 处理中文,使用 Whisper-Large-v3 处理英文ASR。标记为“-”的模型未在该特定语言的文本上进行训练。
ASR性能基准
评估了代表性ASR模型在所有噪声水平下的性能,为级联检索系统提供基线。
1. 英文子数据集(词错误率 - WER %)
(包含Whisper-Large-V3、Qwen3-ASR-1.7B、GLM-ASR-Nano、Fun-ASR-Nano、SenseVoice-Small等模型在不同噪声水平下的WER数据表)
2. 中文子数据集(字错误率 - CER %)
(包含Paraformer-Large、Qwen3-ASR-1.7B、Fun-ASR-Nano、GLM-ASR-Nano、SenseVoice-Small、Whisper-Large-V3等模型在不同噪声水平下的CER数据表)
安装与使用
1. 环境设置
bash git clone https://github.com/ttoyekk1a/SQuTR-Spoken-Query-to-Text-Retrieval.git cd SQuTR-Spoken-Query-to-Text-Retrieval pip install -r requirements.txt
端到端检索示例:Omni-Embedding
使用NVIDIA Omni-Embedding (Nemotron-3B)进行端到端音频检索。 bash bash scripts/retrieval/run_omni_emb.sh
级联检索示例:Whisper + BGE
使用Whisper-Large-V3进行ASR,使用BAAI/bge-base-en-v1.5进行稠密检索。
-
运行Whisper ASR转录音频查询: bash bash scripts/asr/run_whisper_large_v3.sh
-
使用BGE运行稠密检索评估: bash bash scripts/retrieval/run_mteb_dense.sh
级联检索示例:BM25
使用ASR输出在FiQA子集上评估词汇检索(BM25)。 bash bash scripts/retrieval/run_bm25.sh




