LibriheavyMix

Name: LibriheavyMix
Creator: 小米公司，北京，中国；腾讯AI实验室，贝尔维尤，美国；香港中文大学，香港特别行政区，中国
Published: 2024-09-02 03:23:08
License: 暂无描述

arXiv2024-09-02 更新2024-09-06 收录

下载链接：

https://huggingface.co/datasets/zrjin/

下载链接

链接失效反馈

官方服务：

资源简介：

LibriheavyMix是一个由小米公司、腾讯AI实验室和香港中文大学联合创建的大规模单通道混响多说话者语音分离数据集，总时长达到20,000小时。该数据集基于Libriheavy构建，包含丰富的标点、大小写和文本上下文信息，旨在模拟真实世界的会议和鸡尾酒会场景。数据集的创建过程包括语音重叠模拟和混响引入，以生成更具挑战性的训练样本。LibriheavyMix主要应用于多说话者语音识别、语音分离和说话者日志，旨在解决在混响环境中识别“谁说了什么以及何时说”的难题。

LibriheavyMix is a large-scale single-channel reverberant multi-speaker speech separation dataset jointly created by Xiaomi Corporation, Tencent AI Lab, and The Chinese University of Hong Kong, with a total duration of 20,000 hours. Built upon Libriheavy, this dataset contains rich punctuation, capitalization, and textual context information, which is designed to simulate real-world meeting and cocktail party scenarios. The dataset creation process includes speech overlap simulation and reverberation injection to generate more challenging training samples. LibriheavyMix is mainly applied to multi-speaker speech recognition, speech separation and speaker diarization, aiming to solve the challenge of identifying "who spoke what and when" in reverberant environments.

提供机构：

小米公司，北京，中国；腾讯AI实验室，贝尔维尤，美国；香港中文大学，香港特别行政区，中国

创建时间：

2024-09-02

搜集汇总

数据集介绍

构建方式

LibriheavyMix 数据集的构建采用了基于 Libriheavy 语料库的模拟方法。Libriheavy 是一个包含 50,000 小时数据的大型自动语音识别语料库，提供了丰富的信息，包括标点符号、大小写和文本上下文。为了模拟真实世界的远场混响场景，数据集引入了混响效果，并使用了 FAST-RIR 生成房间脉冲响应。数据集的模拟过程包括对重叠语音的模拟和混响效果的添加。重叠语音的模拟是通过随机选择不同说话人的话语片段，并按照一定的概率和持续时间分布进行重叠。混响效果的添加是通过将每个源语音与生成的房间脉冲响应进行卷积，模拟不同的声学环境。LibriheavyMix 数据集提供了不同大小的训练集，包括小型、中型和大型训练集，以满足不同研究需求。

特点

LibriheavyMix 数据集具有以下几个特点：首先，数据集的规模庞大，包含 20,000 小时的重叠语音数据，比其他数据集的数据量更大。其次，数据集引入了混响效果，模拟了真实世界的远场场景，为研究提供了更具有挑战性的数据。此外，数据集包含了多个说话人的转换，与真实世界的对话场景相符，可用于说话人分割和说话人属性识别。最后，数据集的转录中包含了标点符号、大小写和文本上下文等信息，可用于研究标点和语义信息。

使用方法

使用 LibriheavyMix 数据集的方法如下：首先，需要下载数据集，并解压到指定的文件夹。然后，可以根据研究需求选择不同大小的训练集进行实验。在实验过程中，可以使用数据集提供的脚本和工具进行数据预处理、模型训练和评估。此外，数据集还提供了基准系统，包括多说话人自动语音识别系统、语音分离模型和说话人分割系统，可用于评估数据集的性能和效果。

背景与挑战

背景概述

随着语音处理技术的不断发展，越来越多的研究聚焦于复杂场景，如会议或鸡尾酒会中多个说话者的远场条件。现有的方法分为多通道和单通道两种。单通道方法因其通用性和便捷性而受到关注，无需特定关于麦克风阵列的信息。本文提出的大型远场重叠语音数据集，旨在推进语音分离、识别和说话人分割的研究。该数据集是解码“谁说了什么，什么时候说”在多说话者、混响环境中的关键资源。此外，我们介绍了一个涵盖语音分离、识别和分割的流水线系统作为基础基准。在WHAMR!数据集上的评估验证了所提数据的广泛应用。

当前挑战

现有的大多数数据集要么不考虑远场条件下的混响，要么提供的数据量不足以使模型泛化到其他数据集。此外，这些数据集大多是只有1个说话者轮流说话的简单情况，这与现实生活中多说话者轮流说话的真实场景不符。因此，我们面临的挑战包括：如何模拟真实的远场混响环境，以及如何生成足够的包含多个说话者轮流说话的数据。

常用场景

经典使用场景

LibriheavyMix数据集是一个专门用于远场多说话人语音分离、自动语音识别（ASR）和说话人分割的大型数据集，包含20,000小时的模拟数据。该数据集旨在模拟现实世界中的多说话人、混响和远场环境，从而推动相关领域的研究。在多说话人语音分离任务中，该数据集被用于训练深度学习模型，以提高模型在识别和分离多个说话人语音的能力。在ASR任务中，LibriheavyMix被用于训练多说话人识别系统，使其能够准确识别和转录多说话人对话中的每个说话人的语音。在说话人分割任务中，该数据集被用于训练说话人分割模型，以提高模型在识别和分割多说话人对话中的每个说话人语音的能力。

解决学术问题

LibriheavyMix数据集解决了现有方法无法处理远场多说话人场景的问题。现有的多说话人语音分离、识别和说话人分割方法大多基于模拟数据集，而这些数据集往往忽略了混响和远场条件，且数据量不足以使模型泛化到其他数据集。此外，大多数数据集都是单说话人转换单的情况，这与现实世界中常见的多说话人转换单对话场景不符。LibriheavyMix数据集通过引入混响和远场条件，以及提供大量的多说话人转换单数据，为解决这些问题提供了重要的资源。该数据集的发布推动了相关领域的研究进展，并为开发更先进的语音处理技术奠定了基础。

衍生相关工作

LibriheavyMix数据集的发布推动了相关领域的研究进展，并衍生了许多经典工作。例如，基于LibriheavyMix数据集，研究人员开发了多种先进的语音处理模型和算法，包括多说话人语音分离模型、多说话人识别模型和说话人分割模型等。这些模型和算法在多个公开数据集上取得了优异的性能，并在实际应用中得到了广泛的应用。此外，LibriheavyMix数据集还被用于评估和比较不同语音处理技术的性能，为开发更先进的语音处理技术提供了重要的参考依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集