TS-SUPERB

Name: TS-SUPERB
Creator: 捷克布拉格工业大学, 日本NTT公司
Published: 2025-05-10 22:23:37
License: 暂无描述

arXiv2025-05-10 更新2025-05-14 收录

下载链接：

https://github.com/BUTSpeechFIT/TS SUPERB

下载链接

链接失效反馈

官方服务：

资源简介：

TS-SUPERB是一个针对目标语音处理的自监督学习模型的通用性能基准。它包含四个广泛认可的目标语音处理任务，这些任务要求识别目标说话者并从语音混合中提取信息。该数据集的创建旨在解决在嘈杂、多人交谈条件下目标说话者任务的挑战，并通过使用统一的基于自监督学习的目标语音编码器，探索联合优化以利用相互信息，并证明其有效性。

TS-SUPERB is a general performance benchmark for self-supervised learning models designed for target speech processing. It includes four widely recognized target speech processing tasks that require identifying target speakers and extracting information from speech mixtures. This benchmark was developed to address the challenges of target speaker tasks in noisy, multi-talker conversational environments, explore joint optimization strategies for leveraging mutual information via a unified self-supervised learning-based target speech encoder, and verify its effectiveness.

提供机构：

捷克布拉格工业大学, 日本NTT公司

创建时间：

2025-05-10

搜集汇总

数据集介绍

构建方式

TS-SUPERB数据集构建基于多说话人语音混合场景，通过整合Libri2Mix-min clean、Noisy SparseLibri2Mix等标准化数据集，模拟真实环境中的噪声和重叠语音条件。数据采集过程严格控制说话人重叠比例（0%-60%）和信噪比，并采用双通道处理策略：注册语音用于提取说话人嵌入特征，混合语音用于目标语音处理任务。数据集通过统一的SSL架构（包含说话人编码器和特征提取模块）实现多任务联合优化，确保不同任务间的特征兼容性。

特点

该数据集的核心特点体现在多维度挑战性任务设计：包含目标语音提取（TSE）、个性化语音增强（PSE）、目标说话人语音活动检测（PVAD）和目标说话人语音识别（TS-ASR）四大任务，全面覆盖语音处理中的身份判别与内容解析需求。其独特价值在于首次将双目标优化（说话人识别+信息提取）引入SSL评估体系，通过WavLM等预训练模型的对比实验证明，传统单说话人任务性能无法直接推导多说话人场景表现。数据集特别设计的动态重叠比例测试集（0%/20%/40%/60%）有效验证模型在稀疏与密集重叠场景的鲁棒性。

使用方法

使用TS-SUPERB需遵循模块化处理流程：首先加载预训练的SSL模型作为特征提取器，将注册语音和混合语音分别输入说话人编码器与特征提取模块。下游任务解码器采用轻量级设计（如BLSTM+CTC的TS-ASR解码器），通过广播乘法融合说话人嵌入与混合特征。评估时需注意任务特异性指标：TSE/PSE采用SI-SDRi和PESQ，PVAD计算mAP，TS-ASR测量WER。代码库提供多任务联合训练接口，支持通过损失加权系数α平衡TSE+TS-ASR或PSE+PVAD的优化目标。实验表明冻结SSL参数时WavLM Base+模型表现最优，而全参数微调可进一步提升性能。

背景与挑战

背景概述

TS-SUPERB（Target-Speaker Speech Processing Universal Performance Benchmark）是由布尔诺理工大学和日本NTT公司于2025年联合推出的目标说话人语音处理基准测试集。该数据集聚焦于嘈杂多说话人场景下的目标说话人任务，填补了传统语音自监督学习评测基准在复杂声学环境中的研究空白。其核心创新在于通过注册语音提取的说话人嵌入作为线索，构建统一的语音编码器架构，支持目标语音提取（TSE）、个性化语音增强（PSE）、目标说话人语音识别（TS-ASR）和个性化语音活动检测（PVAD）四项任务。该数据集推动了语音处理领域从单说话人场景向更具现实意义的多说话人交互场景的范式转移，为评估自监督学习模型在双重目标（说话人识别+信息提取）任务上的表现提供了标准化框架。

当前挑战

TS-SUPERB面临的核心挑战主要体现在任务复杂性和数据构建两个维度。在任务层面，目标说话人处理需要同时解决说话人身份识别与语音内容/特征提取的双重难题，其性能无法直接从单说话人任务（如ASR、SV）推断，这导致传统语音模型的评估体系失效。例如目标说话人语音识别任务需在混叠信号中同步完成声源分离和文本转录，其词错误率比单说话人场景平均高出15-20%。在数据构建方面，数据集需要精确模拟真实场景的声学复杂性：Libri2Mix和Noisy SparseLibri2Mix数据集的创建涉及多说话人语音的时空对齐、0%-60%动态重叠率控制以及WHAM!噪声数据库的混合，这对数据清洗、标注一致性和声学参数平衡提出了极高要求。此外，注册语音与混合语音的跨模态关联标注也大幅增加了数据制备的复杂度。

常用场景

经典使用场景

在嘈杂的多说话人环境中，TS-SUPERB数据集被广泛用于评估自监督学习模型在目标说话人语音处理任务中的表现。例如，在目标语音提取（TSE）任务中，模型需要从混合语音信号中分离出目标说话人的语音，这对于开发助听设备和电话会议系统具有重要意义。数据集通过提供标准化的评估框架，使得研究人员能够系统地比较不同模型在复杂声学条件下的性能。

解决学术问题

TS-SUPERB数据集解决了自监督学习模型在目标说话人任务中评估不足的问题。传统基准主要关注单说话人场景，而忽略了多说话人嘈杂环境下的实际需求。该数据集通过引入目标说话人自动语音识别（TS-ASR）、个性化语音增强（PSE）等任务，填补了这一研究空白，并为模型在复杂场景下的性能评估提供了科学依据。

衍生相关工作

TS-SUPERB数据集衍生了一系列经典研究工作，例如结合自监督学习模型与目标说话人系统的探索。相关研究包括使用预训练说话人编码器改进目标语音提取性能，以及通过多任务学习框架联合优化目标说话人任务。这些工作不仅推动了目标说话人处理技术的发展，还为自监督学习在多模态任务中的应用提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集