LibriSpeechMix

Name: LibriSpeechMix
Creator: 南开大学计算机学院
Published: 2025-09-16 21:51:44
License: 暂无描述

arXiv2025-09-16 更新2025-09-18 收录

下载链接：

https://github.com/NKU-HLT/GLAD

下载链接

链接失效反馈

官方服务：

资源简介：

LibriSpeechMix是一个多说话人自动语音识别（MTASR）的基准数据集，由LibriSpeech数据集通过模拟重叠语音生成。该数据集包含两人对话（LSM-2mix）和三人对话（LSM-3mix）的场景，并模拟了不同程度的重叠情况，用于评估MTASR模型在不同重叠条件下的鲁棒性。数据集创建过程中，将LibriSpeech训练集中的语音片段随机配对，并引入随机时间偏移，以生成两人对话的训练数据。同时，为使模型适应单说话人和多说话人场景，将部分两人对话与原始单说话人语音片段合并，形成了最终约1.35k小时的训练集。该数据集旨在解决多说话人场景下的语音识别问题，为会议转录和多方对话分析等应用提供数据基础。

LibriSpeechMix is a benchmark dataset for multi-talker automatic speech recognition (MTASR), generated from the LibriSpeech dataset by simulating overlapping speech. It encompasses two-speaker (LSM-2mix) and three-speaker (LSM-3mix) conversational scenarios with varying degrees of speech overlap, and is used to evaluate the robustness of MTASR models under different overlapping conditions. During the dataset construction process, speech segments from the LibriSpeech training set are randomly paired, with random time offsets introduced to generate training data for two-speaker conversations. Additionally, to enable models to adapt to both single-speaker and multi-speaker scenarios, a portion of the two-speaker mixtures are merged with original single-speaker speech segments, forming a final training set totaling approximately 1.35 thousand hours of audio. This dataset aims to address the speech recognition challenge in multi-speaker scenarios, providing a foundational data resource for applications such as meeting transcription and multi-party conversation analysis.

提供机构：

南开大学计算机学院

创建时间：

2025-09-16

原始信息汇总

GLAD 数据集概述

数据集简介

GLAD（Global-Local Aware Dynamic Mixture-of-Experts）是一个用于多说话人自动语音识别（ASR）的数据集，基于LibriSpeech-train-960构建。

训练数据

数据来源：LibriSpeech-train-960
数据混合：使用LibrispeechMix工具包生成双说话人混合音频
数据格式：
- 单说话人转录文本标记为"text1"
- 双说话人转录文本标记为"text1 $ text2"（$表示说话人切换）
数据处理：
- 包含速度扰动（0.9x、1.0x、1.1x）
- 提供wav.scp索引文件和wavlist训练数据列表

技术框架

开发基础：基于ESPnet框架构建
配置文件：提供GLAD专用配置文件
评估方法：使用Speaker-Aware-CTC的评估代码

使用说明

替换本地ESPnet仓库中的相应目录
更新配置文件中的数据路径
执行run.sh进行数据准备和训练（阶段10-13）
使用run_pi_scoring.sh进行模型评估

引用信息

bibtex @misc{guo2025gladgloballocalawaredynamic, title={GLAD: Global-Local Aware Dynamic Mixture-of-Experts for Multi-Talker ASR}, author={Yujie Guo and Jiaming Zhou and Yuhang Jia and Shiwan Zhao and Yong Qin}, year={2025}, eprint={2509.13093}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2509.13093}, }

致谢

ESPnet框架
LibrispeechMix工具包
Speaker-Aware-CTC项目

搜集汇总

数据集介绍

构建方式

LibriSpeechMix数据集基于LibriSpeech语料库构建，专为多说话人语音识别研究设计。通过从960小时原始训练集中随机配对语音片段并施加随机时间偏移，生成两说话人混合语音。训练集整合了单说话人样本与混合样本，最终形成约1351小时的高质量数据，覆盖低、中、高三种重叠比例场景，以系统化评估模型在不同重叠条件下的鲁棒性。

使用方法

数据集主要用于训练和评估多说话人语音识别模型，尤其适用于Serialized Output Training（SOT）范式。使用时需加载混合音频与对应串行化标注，通过置换不变词错误率（Permutation-Invariant WER）和重叠感知词错误率（OA-WER）进行性能度量。其分层重叠设计支持模型在特定重叠场景下的精细化性能分析，为算法优化提供定向验证依据。

背景与挑战

背景概述

LibriSpeechMix数据集作为多说话人语音识别领域的重要基准，由南开大学计算机学院团队于2025年基于LibriSpeech语料库构建而成。该数据集通过模拟真实场景中的语音重叠现象，专注于解决鸡尾酒会问题中的多说话人混合语音转录挑战。其创新性体现在采用序列化输出训练框架，支持可变数量说话人的统一建模，显著推动了端到端多说话人识别系统的发展，并为全球学术界提供了可复现的评估标准。

当前挑战

该数据集核心挑战在于高重叠度场景下说话人特征分离与内容识别的双重困难，具体表现为语音流时序交错导致的声学特征混淆问题。构建过程中需克服原始语料标注对齐精度、重叠比例可控性以及跨说话人声学特征平衡等技术难点，同时需确保生成数据与真实场景声学特性的匹配度。

常用场景

经典使用场景

在语音识别研究领域，LibriSpeechMix数据集被广泛用于模拟真实场景中的多人重叠语音识别任务。该数据集通过混合LibriSpeech中的单说话人语音，生成具有不同重叠比例的双人和三人对话语料，为模型提供了丰富的多说话人语音样本。其经典使用场景包括训练和评估端到端多说话人自动语音识别（MTASR）模型，特别是在高重叠条件下的性能测试，能够有效模拟会议转录、多人对话分析等实际应用环境。

解决学术问题

LibriSpeechMix数据集主要解决了多说话人语音识别中的鸡尾酒会问题，即如何在重叠语音中准确分离和识别不同说话人的内容。该数据集支持研究者探索 permutation invariant training（PIT）、serialized output training（SOT）等先进方法，有效应对了说话人数量不确定和语音重叠带来的挑战。其意义在于推动了动态路由、说话人感知建模等技术的发展，为处理复杂声学环境下的语音识别提供了标准化的实验基准。

实际应用

在实际应用中，LibriSpeechMix数据集为智能会议系统、多人群组语音助手和实时转录工具提供了关键的数据支持。基于该数据集训练的模型能够有效处理真实场景中的语音重叠问题，例如在远程会议中区分不同发言者的内容，或在教育环境中分析小组讨论的语音数据。这些应用显著提升了语音交互系统的实用性和鲁棒性，满足了多模态人机交互的需求。

数据集最近研究