LibriCrowd

github2023-03-27 更新2024-05-31 收录

下载链接：

https://github.com/GenerateAI/LibriCrowd

下载链接

链接失效反馈

官方服务：

资源简介：

LibriCrowd是一个包含约100小时剧本化英语语音的数据集，包含干净和嘈杂的人类转录。原始音频文件和地面实况转录是从著名的LibriSpeech语料库的一个子集中选出的。

LibriCrowd is a dataset containing approximately 100 hours of scripted English speech, including both clean and noisy human transcriptions. Its raw audio files and ground-truth transcriptions are selected from a subset of the renowned LibriSpeech corpus.

创建时间：

2023-03-07

原始信息汇总

数据集概述

LibriCrowd 是一个包含约100小时脚本化英语语音的数据集，提供清洁和噪声人声转录。该数据集从著名的LibriSpeech数据集中选取原始音频文件和基准转录，用于支持人类转录错误检测与修正以及鲁棒自动语音识别（ASR）系统的评估任务。

数据集结构与统计

数据集分为三个子集，用于训练和评估。具体统计如下：

子集	语音小时数	工作者数量	响应数量
train-other-10h	10.0	1258	18673
train-other-60h	60.0	1136	20187
train-mixed-10h	9.8	616	14231
dev-clean	5.4	523	13994
test-clean	5.4	527	13587
dev-other	5.3	620	15235
test-other	5.1	989	15950
总计	101.0	4433	111857

下载信息

原始人声转录可从 ./transcription/raw/ 下载。
处理后的人声转录可从 ./transcription/processed/ 下载。
样本原始语音音频文件可在 ./audio_sample/ 试听。
完整音频文件下载链接：
- train-mixed-10h.tar.gz [598M]
- train-other-10h.tar.gz [591M]
- train-other-60h.tar.gz [3.7G]
- dev-clean.tar.gz [337M]
- dev-other.tar.gz [314M]
- test-clean.tar.gz [346M]
- test-other.tar.gz [328M]

许可信息

数据集使用 CC BY 4.0 许可。

搜集汇总

数据集介绍

构建方式

LibriCrowd数据集的构建基于著名的LibriSpeech语料库，从中精选了约100小时的英文语音数据，并辅以干净和含噪声的人工转录文本。通过众包平台收集了不同质量水平的转录数据，确保了数据集的多样性和真实性。数据集的构建过程严格遵循了语音识别领域的研究需求，旨在为转录质量改进和鲁棒性语音识别系统的开发提供高质量的训练和评估资源。

特点

LibriCrowd数据集的核心特点在于其包含的转录文本具有不同的噪声水平，涵盖了从干净到含噪声的多种转录质量。数据集提供了详细的统计信息，包括语音时长、转录响应数量及参与转录的工人数量等。此外，数据集支持多种任务，如转录错误检测与纠正、鲁棒性语音识别系统评估等，为研究人员提供了丰富的实验场景和基准数据。

使用方法

使用LibriCrowd数据集时，研究人员可通过下载提供的音频文件和转录文本进行实验。数据集分为训练集和评估集，训练集包括不同时长的语音数据，评估集则与LibriSpeech的dev/test子集一致。用户可根据任务需求选择干净或含噪声的转录数据进行模型训练和评估。数据集还提供了详细的下载链接和文件结构说明，便于用户快速获取所需资源并开展研究工作。

背景与挑战

背景概述

LibriCrowd数据集是一个大规模众包英语语音语料库，包含干净和带有噪声的人工转录文本。该数据集由约100小时的脚本化英语语音组成，其原始音频文件和真实转录文本选自著名的LibriSpeech语料库的子集。LibriCrowd的创建旨在解决语音转录质量提升的核心问题，特别是在众包环境下，人工转录的噪声问题尤为突出。通过提供不同噪声水平的转录文本，该数据集为开发置信度估计模型（CEMs）和错误纠正模型（ECMs）提供了基础，从而推动语音转录技术的进步。该数据集在语音识别领域具有重要影响力，尤其是在提升自动语音识别（ASR）系统的鲁棒性方面。

当前挑战

LibriCrowd数据集面临的挑战主要集中在两个方面。首先，在解决领域问题上，如何有效检测和纠正众包环境下的人工转录错误是一个关键挑战。尽管数据集提供了不同噪声水平的转录文本，但如何设计高效的置信度估计模型和错误纠正模型，以在单词或语句级别上准确预测和修正错误，仍然是一个复杂的问题。其次，在数据集构建过程中，如何确保转录文本的噪声水平可控且具有代表性，同时保持数据集的多样性和平衡性，也是一个技术难点。此外，如何在训练和评估自动语音识别系统时，有效利用带有噪声的转录数据，以提升系统的鲁棒性，也是当前研究中的一个重要挑战。

常用场景

经典使用场景

LibriCrowd数据集在语音识别领域中被广泛用于研究人类转录错误检测与校正。通过提供不同噪声水平的人类转录文本，该数据集为开发置信度估计模型（CEMs）和错误校正模型（ECMs）提供了丰富的实验数据。研究人员可以利用这些模型来提升众包转录的质量，从而为自动语音识别（ASR）系统的优化奠定基础。

衍生相关工作

基于LibriCrowd数据集，许多经典研究工作得以展开。例如，研究人员开发了多种置信度估计模型和错误校正模型，显著提升了转录质量。此外，该数据集还被用于评估不同ASR系统在噪声环境下的鲁棒性，推动了语音识别技术的创新。这些工作不仅丰富了语音识别领域的研究成果，还为实际应用提供了可靠的技术支持。

数据集最近研究