Libriheavy|自动语音识别数据集|语音数据数据集

github2023-12-18 更新2024-05-31 收录

自动语音识别

语音数据

下载链接：

https://github.com/k2-fsa/libriheavy

下载链接

链接失效反馈

资源简介：

Libriheavy是一个包含50,000小时语音数据的自动语音识别（ASR）语料库，具备标点符号和大写处理，以及上下文信息。

Libriheavy is an automatic speech recognition (ASR) corpus containing 50,000 hours of speech data, equipped with punctuation and capitalization processing, as well as contextual information.

创建时间：

2023-08-14

原始信息汇总

数据集概述

名称: Libriheavy

描述: Libriheavy 是一个包含50,000小时的自动语音识别（ASR）语料库，具有标点和大小写信息，以及上下文信息。它是 Librilight 数据集的标注版本。

下载方式:

音频文件: 与 Librilight 相同，可通过命令 bash run.sh --stage -1 --stop-stage -1 下载。
清单文件: 托管在 huggingface 和 modelscope，可通过命令 bash run.sh --stage 1 --stop-stage 1 或 bash run.sh --stage 0 --stop-stage 0 下载。

数据结构:

每个清单文件包含音频的详细信息，包括开始时间、持续时间、通道、监督信息等。
监督信息包括文本和预处理文本，分别来自原始书籍的转录和ASR模型的解码结果。

数据格式:

提供两种格式的数据：带有标点和大小写的格式（cases_and_punc）和仅大写无标点的格式（upper_no_punc）。
每种格式都包含Kaldi和Lhotse两种处理方式的文件。

使用指南:

对于纯ASR训练，可通过命令 bash run.sh --stage 2 --stop-stage 2 提取清单。
使用 pre_texts 的指南在论文 PromptASR for contextualized ASR with controllable style 中有详细说明。

统计信息:

数据集的详细统计信息可在 Librilight 论文中找到，包括不同子集的时长、书籍数量、发言人时长等。

引用:

@misc{kang2023libriheavy, title={Libriheavy: a 50,000 hours ASR corpus with punctuation casing and context}, author={Wei Kang and Xiaoyu Yang and Zengwei Yao and Fangjun Kuang and Yifan Yang and Liyong Guo and Long Lin and Daniel Povey}, year={2023}, eprint={2309.08105}, archivePrefix={arXiv}, primaryClass={eess.AS} }

AI搜集汇总

数据集介绍

构建方式

Libriheavy数据集是基于Librilight数据集构建的，其音频文件与Librilight相同，但增加了标点符号、大小写和上下文信息的标注。数据集的构建过程包括从Librilight中提取音频文件，并通过自动语音识别（ASR）模型生成初步的转录文本，随后与原始书籍中的文本进行对齐，确保转录的准确性。数据集还提供了两种文本版本：一种是带有标点符号和大小写的原始文本，另一种是经过ASR模型解码后的文本。

特点

Libriheavy数据集包含了超过50,000小时的标注音频数据，涵盖了丰富的语音场景和多样化的说话人。其独特之处在于提供了带有标点符号和大小写的文本标注，这在语音识别任务中尤为重要。此外，数据集还提供了上下文信息，使得模型能够更好地理解语音的语境。数据集的音频时长从20秒到100秒不等，适合用于训练和评估各种语音处理模型。

使用方法

使用Libriheavy数据集时，用户可以通过Hugging Face或ModelScope平台下载数据集的清单文件。音频文件则需从Librilight的GitHub页面获取。数据集提供了多种格式的清单文件，包括Kaldi和Lhotse格式，用户可以根据需要选择适合的格式进行下载和使用。此外，数据集还提供了详细的脚本，帮助用户提取用于纯语音识别训练的清单文件。用户可以通过运行提供的脚本，轻松地将数据集应用于不同的语音处理任务中。

背景与挑战

背景概述

Libriheavy数据集是自动语音识别（ASR）领域的重要资源，由Wei Kang等研究人员于2023年创建。该数据集基于Librilight数据集构建，包含了50,000小时的标注音频数据，涵盖了标点符号、大小写和上下文信息。其核心研究问题在于如何通过大规模、高质量的语音数据提升ASR模型的性能，尤其是在复杂语境下的表现。Libriheavy的发布为ASR领域的研究者提供了丰富的训练和评估资源，推动了语音识别技术在真实场景中的应用。

当前挑战

Libriheavy数据集在构建和应用过程中面临多重挑战。首先，数据集的标注需要处理大量音频数据，确保文本与音频的精确对齐，尤其是在包含标点符号和大小写的情况下，这对标注的准确性和一致性提出了极高要求。其次，数据集的规模庞大，存储、传输和处理这些数据对计算资源提出了巨大挑战。此外，如何在保持数据多样性的同时，确保数据质量，避免噪声和错误标注的影响，也是构建过程中的关键难题。最后，如何利用该数据集训练出能够处理复杂语境和多样化语音风格的ASR模型，仍然是当前研究的核心挑战。

常用场景

经典使用场景

Libriheavy数据集在自动语音识别（ASR）领域中被广泛用于模型训练和评估。其丰富的音频数据和详细的标注信息，包括标点符号、大小写和上下文信息，使其成为研究上下文感知ASR系统的理想选择。研究人员可以通过该数据集探索如何利用上下文信息提升语音识别的准确性，尤其是在处理复杂语境和长音频片段时。

解决学术问题

Libriheavy数据集解决了ASR领域中的多个关键问题，特别是在上下文感知和标点符号恢复方面。传统的ASR系统往往忽略标点符号和大小写信息，导致生成的文本缺乏可读性。Libriheavy通过提供包含这些信息的标注数据，帮助研究人员开发能够生成更自然、可读性更高的文本的ASR模型。此外，其大规模数据量也为训练更复杂的深度学习模型提供了坚实的基础。

衍生相关工作

Libriheavy数据集催生了许多相关研究工作，尤其是在上下文感知ASR和标点符号恢复领域。例如，基于该数据集的研究提出了PromptASR模型，该模型通过引入上下文信息实现了可控风格的语音识别。此外，许多开源工具包如Wenet和icefall也提供了基于Libriheavy的预训练模型和训练方案，进一步推动了ASR技术的发展。这些工作不仅验证了Libriheavy的有效性，也为未来的研究提供了宝贵的参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录