TextrolMix

Name: TextrolMix
Creator: 亚马逊Prime Video
Published: 2025-01-16 05:43:49
License: 暂无描述

arXiv2025-01-16 更新2025-01-18 收录

下载链接：

https://github.com/mingyue66/TextrolMix/

下载链接

链接失效反馈

官方服务：

资源简介：

TextrolMix是由亚马逊Prime Video团队创建的一个用于目标语音提取（TSE）的数据集，包含12万条双人语音混合数据，总计157小时。每条数据包含目标语音的自然语言描述和参考音频线索，支持灵活的文本引导TSE模型。数据集通过增强TextrolSpeech数据集生成，每条语音混合数据包含六种属性：说话者身份、情感、音高、性别、口音和语速。数据集的设计使得模型能够基于细微的属性差异提取目标语音，而无需依赖显著不同的整体说话风格。TextrolMix数据集的应用领域主要集中在语音分离和目标语音提取，旨在解决传统TSE方法在缺乏明确说话者身份线索时的局限性。

TextrolMix is a Target Speech Extraction (TSE) dataset developed by the Amazon Prime Video team. It consists of 120,000 two-speaker mixed speech samples, with a total duration of 157 hours. Each sample includes both a natural language description of the target speech and reference audio cues, enabling flexible text-guided TSE models. This dataset is generated by augmenting the existing TextrolSpeech dataset, and every mixed speech sample contains six attributes: speaker identity, emotion, pitch, gender, accent, and speech rate. The design of TextrolMix allows models to extract target speech based on subtle attribute differences, without relying on significantly distinct overall speaking styles. The main application fields of TextrolMix focus on speech separation and target speech extraction, aiming to address the limitations of traditional TSE methods when explicit speaker identity cues are absent.

提供机构：

亚马逊Prime Video

创建时间：

2025-01-16

搜集汇总

数据集介绍

构建方式

TextrolMix数据集的构建基于TextrolSpeech数据集，通过扩充原始数据并生成混合语音样本。首先，TextrolSpeech数据集中的每个语音样本被进一步细化，增加了六个属性：说话者身份、情感、音高、性别、口音和语速。随后，为了支持灵活的文本引导目标语音提取模型，每个混合样本包含两种线索：一是描述目标语音说话风格的自然语言描述，二是与目标语音共享特定风格属性的参考音频及其对应的文本提示。混合样本的生成遵循LibriMix流程，确保语音长度在3至15秒之间，并通过调整音量使信噪比呈正态分布。最终，数据集被划分为训练集、开发集和测试集，比例为8:1:1。

特点

TextrolMix数据集的特点在于其多样化的自然语言描述和灵活的语音混合方式。每个混合样本不仅包含目标语音和干扰语音，还提供了详细的说话风格描述，使得模型能够基于文本线索提取目标语音。此外，数据集的设计强调说话风格而非说话者身份，允许同一说话者的不同语音样本作为混合样本，只要它们在情感、音高等属性上有所区别。这种设计使得模型能够处理更加复杂的语音分离任务，尤其是在缺乏传统音频线索的情况下。

使用方法

TextrolMix数据集的使用方法主要围绕文本引导的目标语音提取任务展开。研究人员可以利用该数据集训练和评估文本引导的语音分离模型，如StyleTSE模型。在训练过程中，模型通过结合音频和文本线索，动态融合两种模态的信息，从而提取目标语音。数据集提供了丰富的自然语言描述和参考音频，使得模型能够在不同线索条件下进行训练和测试。此外，数据集的动态混合策略和两阶段训练方法进一步提升了模型的鲁棒性和适应性，使其能够在实际应用中处理多样化的输入条件。

背景与挑战

背景概述

TextrolMix数据集由亚马逊Prime Video团队与伊利诺伊大学厄巴纳-香槟分校的研究人员共同开发，旨在解决目标语音提取（TSE）领域中的关键问题。传统TSE方法依赖于说话者的身份信息，如注册音频或面部图像，但这些信息在实际应用中往往难以获取。TextrolMix通过引入自然语言描述作为辅助线索，扩展了TSE的应用场景。该数据集包含超过12万条双人语音混合样本，总计157小时，每段混合样本均配有目标语音的自然语言描述和参考音频。TextrolMix的创建标志着TSE领域从依赖单一音频线索向多模态线索融合的转变，推动了语音分离技术的进一步发展。

当前挑战

TextrolMix数据集在构建和应用中面临多重挑战。首先，目标语音提取的核心问题在于如何从复杂的多说话者混合音频中准确分离出目标语音，尤其是在说话者身份信息缺失的情况下。TextrolMix通过引入自然语言描述作为辅助线索，解决了这一问题，但如何有效融合文本和音频线索仍是一个技术难点。其次，数据集的构建过程中，生成多样化的自然语言描述并确保其与目标语音的匹配性是一项复杂任务。此外，由于语音信号的频谱特性相似性较高，模型在区分不同说话者时容易混淆，这对模型的鲁棒性和泛化能力提出了更高要求。最后，如何在训练中平衡不同模态线索的贡献，确保模型在单一或双模态线索下均能稳定工作，也是亟待解决的挑战。

常用场景

经典使用场景

TextrolMix数据集在目标语音提取（TSE）领域中被广泛用于训练和评估基于自然语言描述的语音分离模型。通过提供包含说话风格描述的文本线索，该数据集使得模型能够从多说话者混合音频中提取特定风格的语音，而不仅仅依赖于传统的说话者身份信息。这种基于文本的引导方式为语音分离任务提供了更高的灵活性和实用性。

实际应用

在实际应用中，TextrolMix数据集为语音分离技术的落地提供了重要支持。例如，在智能语音助手、会议记录系统以及语音增强设备中，用户可以通过输入自然语言描述来提取特定说话者的语音。这种基于文本的引导方式不仅简化了用户操作，还提高了系统的适应性和实用性。此外，TextrolMix还为语音合成、语音识别等领域提供了高质量的训练数据，推动了相关技术的进一步发展。

衍生相关工作

TextrolMix数据集的推出催生了一系列相关研究工作。例如，基于该数据集开发的StyleTSE模型通过融合文本和音频线索，实现了更灵活的目标语音提取。此外，该数据集还启发了其他研究者探索多模态线索在语音分离中的应用，如结合视觉线索或更复杂的语言模型。这些衍生工作不仅扩展了TextrolMix的应用范围，还为语音分离领域提供了新的技术路径和研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集