LibriCSS

arXiv2020-05-07 更新2024-06-21 收录

下载链接：

https://github.com/chenzhuo1011/libri_css

下载链接

链接失效反馈

官方服务：

资源简介：

LibriCSS是由微软创建的一个多通道音频记录数据集，旨在评估连续语音分离算法。该数据集由LibriSpeech语料库的语句串联而成，模拟对话场景，并通过远场麦克风捕捉音频重放。LibriCSS包含10小时的音频记录，分为10个会话，每个会话约1小时。数据集设计考虑了不同的重叠比率和静音设置，以分析不同算法在各种重叠条件下的表现。此外，数据集还提供了地面实况分割，以便进行传统的语句级评估。LibriCSS的应用领域包括自动语音识别和说话人分割，旨在解决自然对话中语音信号连续性和部分重叠的问题。

LibriCSS is a multi-channel audio recording dataset developed by Microsoft for evaluating continuous speech separation algorithms. It is constructed by concatenating utterances from the LibriSpeech corpus to simulate conversational scenarios, with audio played back and captured using far-field microphones. LibriCSS comprises 10 hours of audio recordings, split into 10 sessions each lasting roughly one hour. The dataset is engineered with varying overlap ratios and silence configurations to analyze the performance of different algorithms across diverse overlapping conditions. Furthermore, the dataset provides ground-truth segmentation to support traditional utterance-level evaluation. Application scenarios of LibriCSS include automatic speech recognition and speaker diarization, targeting the challenges of speech signal continuity and partial overlap in natural conversational settings.

提供机构：

微软

创建时间：

2020-01-31

搜集汇总

数据集介绍

构建方式

LibriCSS数据集的构建方式旨在解决现有语音分离研究在连续语音场景下的不足。该数据集由LibriSpeech语料库中的语句拼接而成，模拟了真实对话场景，并通过远场麦克风捕捉音频回放，以捕捉到连续的、包含多个部分重叠的语句的音频流。数据集包含了10小时的音频记录，共10个会话，每个会话包含6个10分钟的“迷你会话”，每个“迷你会话”包含8位来自LibriSpeech“测试清洁”集中的发言者的语句。数据集的设计考虑到了不同的重叠比例和静默设置，以便分析不同算法在各种重叠条件下的工作表现。

特点

LibriCSS数据集的特点在于其真实性和多样性。数据集在真实房间环境中录制，而非通过模拟生成，从而能够更准确地反映实际房间声学特性。此外，数据集包含了不同重叠比例和静默设置的情况，为研究语音分离算法在不同场景下的性能提供了可能。LibriCSS数据集还提供了连续的音频信号，便于连续语音分离（CSS）算法的评价，同时提供了地面真实分割信息，允许传统的基于语句的评价。这些特点使得LibriCSS数据集成为研究和评估连续语音分离算法的重要资源。

使用方法

使用LibriCSS数据集时，研究人员可以对其进行utterance-wise评价和连续输入评价。在utterance-wise评价中，每个语句通过地面真实分割信息提取出来，然后进行分离处理，并将分离后的信号输入到自动语音识别（ASR）系统中计算词错误率（WER）。在连续输入评价中，分离和识别是在不将音频流分割成单个语句的情况下进行的。由于开源ASR框架中在线解码支持相对有限，因此本研究选择执行长段解码，将每个“迷你会话”预先分割成相对较长的段，每个段包含大约8到10个语句。对于每种评价模式，LibriCSS数据集中的Session0都可以用作超参数调整的开发集。

背景与挑战

背景概述

连续语音分离（Continuous Speech Separation，CSS）是一项新兴的语音处理任务，旨在从连续的音频流中分离出多个非重叠的语音信号。LibriCSS数据集是由微软研究院的研究人员Zhuo Chen等人创建的，旨在解决现有语音分离研究中存在的问题。该数据集于2020年发布，基于LibriSpeech语料库，通过将语料库的语句连接起来模拟对话，并使用远场麦克风捕捉音频回放来构建。LibriCSS数据集的创建对于评估和推动连续语音分离技术的发展具有重要意义，它为研究人员提供了一个更接近真实场景的数据集，有助于开发更实用的语音分离系统。

当前挑战

LibriCSS数据集面临的挑战主要包括：1) 所解决的领域问题：连续语音分离技术需要解决自然对话中语音信号重叠的问题，这对于自动语音识别（ASR）和说话人分割等技术提出了挑战。2) 构建过程中所遇到的挑战：连续语音分离技术需要处理连续的音频流，并生成非重叠的语音信号，这需要解决重叠检测、信号分割和信号增强等问题。此外，连续语音分离技术还需要考虑信号失真、说话人顺序的不确定性等因素，这对于算法的设计和实现提出了更高的要求。

常用场景

经典使用场景

LibriCSS数据集被广泛应用于连续语音分离（CSS）算法的评价。该数据集模拟了真实会话环境，包含不同重叠比例和静音设置的录音，能够帮助研究者分析算法在不同重叠条件下的表现。LibriCSS数据集包含10小时的音频记录，共有10个会话，每个会话时长约为一小时，由六段10分钟长的“迷你会话”组成，重叠比例从0%到40%不等。该数据集还提供了基于Kaldi的自动语音识别（ASR）评估协议，以便于研究者评估CSS算法的性能。

实际应用

LibriCSS数据集在实际应用场景中具有广泛的应用价值。首先，该数据集可用于开发能够处理连续语音流的语音分离算法，这些算法可以应用于会议记录、电话会议和在线聊天等场景。其次，LibriCSS数据集可用于评估CSS算法在实际场景中的性能，从而帮助研究者开发更加高效的算法。此外，该数据集还可以用于开发语音识别和说话人识别等下游应用，从而提高这些应用在实际场景中的性能。

衍生相关工作

LibriCSS数据集的发布促进了相关领域的研究工作。首先，该数据集启发了研究者开发新的CSS算法，这些算法能够更好地处理连续语音流中的重叠和非重叠段落。其次，LibriCSS数据集为研究者提供了评估CSS算法性能的基准，从而推动了CSS技术的发展。此外，该数据集还为研究者提供了连续语音分离问题的研究框架，从而促进了相关领域的研究工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集