Supervoice Dataset
收藏github2024-04-12 更新2024-05-31 收录
下载链接:
https://github.com/ex3ndr/supervoice-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个预处理过的`librilight`数据集,使用Whisper Large模型进行自动语音识别(ASR),然后使用蒙特利尔强制对齐器进行对齐。数据集结构与原始数据集相似,每个文件以三种格式表示:包含音频的`.flac`文件、包含文本的`.txt`文件和包含对齐信息的`.TextGrid`文件。顶级文件夹是发言人,下一级是会话,然后将文件分割成最多`30秒`,平均大约`15秒`。
This is a preprocessed `librilight` dataset, which has undergone automatic speech recognition (ASR) using the Whisper Large model, followed by alignment using the Montreal Forced Aligner. The dataset structure mirrors that of the original dataset, with each file represented in three formats: `.flac` files containing audio, `.txt` files containing text, and `.TextGrid` files containing alignment information. The top-level folders represent speakers, the next level represents sessions, and the files are segmented into chunks of up to `30 seconds`, averaging around `15 seconds`.
创建时间:
2024-03-08
原始信息汇总
Supervoice Dataset 概述
数据集结构
- 文件格式: 每个文件包含三种格式:
.flac(音频)、.txt(文本)、.TextGrid(对齐)。 - 文件组织: 数据集按演讲者、会话和文件进行组织,每个文件最长30秒,平均约15秒。
下载方式
- 通过工具下载: 使用
datasets工具,通过标识符librilight-processed,librilight-processed@medium,librilight-processed@large下载。 - 直接下载: 从 my server 直接下载。
许可证
- MIT License
搜集汇总
数据集介绍

构建方式
Supervoice Dataset的构建过程涉及多个复杂的步骤。首先,原始的Librilight数据集通过Whisper Large模型进行自动语音识别(ASR)处理,随后使用Montreal Forced Aligner进行对齐。这一过程旨在生成高质量的对齐数据集,尽管最终结果因Whisper ASR的低质量而未能达到预期效果。数据集的结构与原始数据集相似,每个文件以三种格式呈现:音频文件(.flac)、文本文件(.txt)以及对齐文件(.TextGrid)。音频文件被分割为最多30秒的片段,平均时长约为15秒。
特点
Supervoice Dataset的主要特点在于其多格式存储和对齐信息的精确性。数据集不仅包含原始音频和对应的文本,还提供了详细的语音对齐信息,这对于语音识别和语音合成任务尤为重要。此外,数据集的分割方式使得每个音频片段长度适中,便于进行精细化的语音分析和处理。尽管构建过程中遇到了质量问题,但该数据集的结构和内容仍为相关研究提供了宝贵的资源。
使用方法
使用Supervoice Dataset时,用户可以通过提供的工具或直接从服务器下载数据集。下载后,数据集可以用于各种语音处理任务,如语音识别、语音合成和对齐分析。具体使用时,用户可以根据需要选择不同大小的数据集版本(如medium或large)。此外,数据集的结构清晰,便于用户快速定位和处理所需的音频和文本数据。对于希望复现数据集的用户,可以通过执行提供的脚本逐步完成数据集的下载、处理和对齐。
背景与挑战
背景概述
Supervoice Dataset是一个预处理后的Librilight数据集,通过使用Whisper Large模型进行自动语音识别(ASR),并结合Montreal Forced Aligner进行对齐。该数据集由研究人员或机构在近期创建,旨在为语音处理领域提供高质量的语音与文本对齐数据。其核心研究问题在于如何通过先进的ASR技术与对齐工具,生成适用于语音识别与处理任务的大规模数据集。该数据集的构建对语音识别、语音合成以及相关领域的研究具有重要意义,尤其是在提升语音与文本对齐的准确性方面。
当前挑战
Supervoice Dataset在构建过程中面临显著挑战。首先,Whisper Large模型的ASR质量未能达到预期,导致语音与文本对齐的准确性较低,进而影响了数据集的整体质量。其次,数据集的预处理流程复杂,包括音频文件的切割、转录以及对齐,这些步骤不仅耗时且需要高性能计算资源,尤其是GPU的支持。此外,尽管数据集提供了多种下载选项,但其生成过程的复杂性和资源需求限制了其广泛应用。
常用场景
经典使用场景
Supervoice Dataset主要用于自动语音识别(ASR)任务中的预处理和强制对齐。该数据集通过Whisper Large模型进行语音转录,并使用Montreal Forced Aligner进行对齐,生成包含音频、文本和时间对齐信息的文件。这种结构化的数据格式使得研究人员能够高效地进行语音识别模型的训练和评估,尤其是在处理大规模语音数据时,该数据集提供了便捷的预处理解决方案。
解决学术问题
Supervoice Dataset解决了在自动语音识别领域中,大规模语音数据预处理和对齐的难题。传统的语音数据处理流程复杂且耗时,而该数据集通过集成Whisper模型和Montreal Forced Aligner,简化了这一过程,为研究人员提供了高质量的预处理数据。这不仅加速了语音识别模型的开发,还提高了模型的准确性和鲁棒性,推动了语音识别技术的发展。
衍生相关工作
基于Supervoice Dataset,许多研究工作得以展开,尤其是在语音识别和自然语言处理领域。例如,有研究者利用该数据集进行端到端语音识别模型的训练,探索了不同模型架构的性能差异。此外,该数据集还激发了关于语音数据预处理和对齐技术的进一步研究,推动了相关工具和算法的改进。通过这些衍生工作,语音识别技术的精度和效率得到了显著提升,为未来的研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



