Libriheavy

github2023-12-18 更新2024-05-31 收录

下载链接：

https://github.com/k2-fsa/libriheavy

下载链接

链接失效反馈

官方服务：

资源简介：

Libriheavy是一个包含50,000小时语音数据的自动语音识别（ASR）语料库，具备标点符号和大写处理，以及上下文信息。

Libriheavy is an automatic speech recognition (ASR) corpus containing 50,000 hours of speech data, equipped with punctuation and capitalization processing, as well as contextual information.

创建时间：

2023-08-14

原始信息汇总

数据集概述

名称: Libriheavy

描述: Libriheavy 是一个包含50,000小时的自动语音识别（ASR）语料库，具有标点和大小写信息，以及上下文信息。它是 Librilight 数据集的标注版本。

下载方式:

音频文件: 与 Librilight 相同，可通过命令 bash run.sh --stage -1 --stop-stage -1 下载。
清单文件: 托管在 huggingface 和 modelscope，可通过命令 bash run.sh --stage 1 --stop-stage 1 或 bash run.sh --stage 0 --stop-stage 0 下载。

数据结构:

每个清单文件包含音频的详细信息，包括开始时间、持续时间、通道、监督信息等。
监督信息包括文本和预处理文本，分别来自原始书籍的转录和ASR模型的解码结果。

数据格式:

提供两种格式的数据：带有标点和大小写的格式（cases_and_punc）和仅大写无标点的格式（upper_no_punc）。
每种格式都包含Kaldi和Lhotse两种处理方式的文件。

使用指南:

对于纯ASR训练，可通过命令 bash run.sh --stage 2 --stop-stage 2 提取清单。
使用 pre_texts 的指南在论文 PromptASR for contextualized ASR with controllable style 中有详细说明。

统计信息:

数据集的详细统计信息可在 Librilight 论文中找到，包括不同子集的时长、书籍数量、发言人时长等。

引用:

@misc{kang2023libriheavy, title={Libriheavy: a 50,000 hours ASR corpus with punctuation casing and context}, author={Wei Kang and Xiaoyu Yang and Zengwei Yao and Fangjun Kuang and Yifan Yang and Liyong Guo and Long Lin and Daniel Povey}, year={2023}, eprint={2309.08105}, archivePrefix={arXiv}, primaryClass={eess.AS} }

搜集汇总

数据集介绍

构建方式

Libriheavy数据集是基于Librilight数据集构建的，其音频文件与Librilight相同，但增加了标点符号、大小写和上下文信息的标注。数据集的构建过程包括从Librilight中提取音频文件，并通过自动语音识别（ASR）模型生成初步的转录文本，随后与原始书籍中的文本进行对齐，确保转录的准确性。数据集还提供了两种文本版本：一种是带有标点符号和大小写的原始文本，另一种是经过ASR模型解码后的文本。

特点

Libriheavy数据集包含了超过50,000小时的标注音频数据，涵盖了丰富的语音场景和多样化的说话人。其独特之处在于提供了带有标点符号和大小写的文本标注，这在语音识别任务中尤为重要。此外，数据集还提供了上下文信息，使得模型能够更好地理解语音的语境。数据集的音频时长从20秒到100秒不等，适合用于训练和评估各种语音处理模型。

使用方法

使用Libriheavy数据集时，用户可以通过Hugging Face或ModelScope平台下载数据集的清单文件。音频文件则需从Librilight的GitHub页面获取。数据集提供了多种格式的清单文件，包括Kaldi和Lhotse格式，用户可以根据需要选择适合的格式进行下载和使用。此外，数据集还提供了详细的脚本，帮助用户提取用于纯语音识别训练的清单文件。用户可以通过运行提供的脚本，轻松地将数据集应用于不同的语音处理任务中。

背景与挑战

背景概述

Libriheavy数据集是自动语音识别（ASR）领域的重要资源，由Wei Kang等研究人员于2023年创建。该数据集基于Librilight数据集构建，包含了50,000小时的标注音频数据，涵盖了标点符号、大小写和上下文信息。其核心研究问题在于如何通过大规模、高质量的语音数据提升ASR模型的性能，尤其是在复杂语境下的表现。Libriheavy的发布为ASR领域的研究者提供了丰富的训练和评估资源，推动了语音识别技术在真实场景中的应用。

当前挑战

Libriheavy数据集在构建和应用过程中面临多重挑战。首先，数据集的标注需要处理大量音频数据，确保文本与音频的精确对齐，尤其是在包含标点符号和大小写的情况下，这对标注的准确性和一致性提出了极高要求。其次，数据集的规模庞大，存储、传输和处理这些数据对计算资源提出了巨大挑战。此外，如何在保持数据多样性的同时，确保数据质量，避免噪声和错误标注的影响，也是构建过程中的关键难题。最后，如何利用该数据集训练出能够处理复杂语境和多样化语音风格的ASR模型，仍然是当前研究的核心挑战。

常用场景

经典使用场景

Libriheavy数据集在自动语音识别（ASR）领域中被广泛用于模型训练和评估。其丰富的音频数据和详细的标注信息，包括标点符号、大小写和上下文信息，使其成为研究上下文感知ASR系统的理想选择。研究人员可以通过该数据集探索如何利用上下文信息提升语音识别的准确性，尤其是在处理复杂语境和长音频片段时。

解决学术问题

Libriheavy数据集解决了ASR领域中的多个关键问题，特别是在上下文感知和标点符号恢复方面。传统的ASR系统往往忽略标点符号和大小写信息，导致生成的文本缺乏可读性。Libriheavy通过提供包含这些信息的标注数据，帮助研究人员开发能够生成更自然、可读性更高的文本的ASR模型。此外，其大规模数据量也为训练更复杂的深度学习模型提供了坚实的基础。

衍生相关工作

Libriheavy数据集催生了许多相关研究工作，尤其是在上下文感知ASR和标点符号恢复领域。例如，基于该数据集的研究提出了PromptASR模型，该模型通过引入上下文信息实现了可控风格的语音识别。此外，许多开源工具包如Wenet和icefall也提供了基于Libriheavy的预训练模型和训练方案，进一步推动了ASR技术的发展。这些工作不仅验证了Libriheavy的有效性，也为未来的研究提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集