大型语音数据集

github2020-03-02 更新2024-05-31 收录

下载链接：

https://github.com/jupiter126/Create_Speech_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过聚合来自librispeech和TEDLIUM的开放语音和转录数据集，构建了一个包含1089小时的语音数据集，旨在适合机器学习应用。

This dataset aggregates open-source speech and transcription datasets from LibriSpeech and TEDLIUM, constructing a comprehensive speech dataset encompassing 1089 hours of audio. It is specifically designed to be suitable for machine learning applications.

创建时间：

2017-05-02

原始信息汇总

数据集概述

数据集目的

本数据集通过聚合开放的语音和转录数据，构建一个大型元数据集，旨在适用于机器学习。当前脚本基于librispeech和TEDLIUM构建了一个1089小时的语音数据集。

数据集要求

ffmpeg
pv
sox
parallel
bc（如果系统中存在bc，脚本将偶尔报告运行时间）

特殊注意事项

使用GNU parallel（和sem）来并行处理ffmpeg，根据机器的核心数进行并行处理，核心数越多，对硬盘的IO要求越高。
建议将“dataset”文件夹挂载到另一个物理硬盘分区，以提高速度并防止硬盘过热。
当需要从零开始重建数据集时，使用fdisk/mkfs格式化数据集分区比删除所有文件更快。

数据集结构

dataset
- test
  - recordings: 500 wav文件
  - transcripts: 500对应的txt文件
- dev
  - recordings: 200 wav文件
  - transcripts: 200对应的txt文件
- train
  - recordings: 剩余的wav文件
  - transcripts: 剩余的对应文本文件

使用方法

数据集可以通过设置选项后运行脚本进行构建。选项包括数据集目录、录音目录、转录目录、训练集目录、测试集目录、测试集条目数、开发集目录和开发集条目数。脚本可以以交互模式或脚本模式运行，支持多种构建命令，如构建所有数据集、特定数据集等。

搜集汇总

数据集介绍

构建方式

大型语音数据集的构建基于开源的语音和转录数据集，通过脚本聚合形成适用于机器学习的大型元数据集。该数据集的构建利用了librispeech和TEDLIUM等数据源，通过ffmpeg、pv、sox和GNU parallel等工具对数据进行处理和并行化处理，从而创建出1089小时的大型语音数据集。

使用方法

使用该数据集时，用户需首先设置数据存储目录及子目录，包括录音和转录文本的存放位置。数据集支持交互式模式和脚本模式，用户可根据需要选择构建全部数据集或特定数据集。脚本模式提供了多种参数，以支持不同数据集的构建，如仅构建TEDLIUM数据集可通过执行特定脚本来实现。

背景与挑战

背景概述

大型语音数据集是一项重要的机器学习资源，旨在聚合开放的语音及其转录数据，以供机器学习研究之用。该数据集基于librispeech和TEDLIUM构建，总计1089小时，其创建目的在于为语音识别、语音合成等研究领域提供丰富多样的训练和测试材料。该数据集的创建时间为未明确标注，但依据其依赖软件版本推测，应在2011年之后。主要研究人员或机构未在README中提及，但该项目显然是一个开源项目，由社区共同维护。数据集自创建以来，对语音处理领域产生了深远的影响，推动了相关技术的进步。

当前挑战

在构建大型语音数据集的过程中，研究人员面临了多方面的挑战。首先，数据集构建的IO密集型特性要求硬件资源具备高效率，特别是当使用多核心处理时，硬盘的读写压力显著增加。其次，数据集的构建过程中，如何有效地管理大量文件（超过100万文件）以避免硬盘过热或损坏，是一个不容忽视的问题。此外，数据集构建过程中涉及到的数据清洗、同步以及转录文本的准确性校验等，也是保证数据集质量的关键环节。在使用该数据集解决语音领域的具体问题时，如语音识别和分类，挑战包括如何提高模型的泛化能力、降低环境噪声的影响以及提升对不同说话人、不同语言的适应性。

常用场景

经典使用场景

在语音识别与处理研究领域，大型语音数据集的应用至关重要。该数据集通过聚合开源的语音及其转录文本，构建了一个适用于机器学习的大型元数据集。其经典使用场景在于为语音识别算法提供训练素材，通过对1089小时语音数据的学习，算法能够提高对语音信号的解析与转写能力。

解决学术问题

该数据集解决了语音识别研究中数据量不足、多样性不够的问题，为学术研究提供了丰富的语音样本和对应的转录文本。这对于提升语音识别算法的准确性和鲁棒性，减少训练过程中的过拟合现象具有重要意义，进而推动了语音识别技术的进步。

实际应用

在实用层面，该数据集的应用广泛，包括但不限于语音助手、语音转文本服务、自动字幕生成等领域。它为开发高效、准确的语音处理系统提供了数据基础，对提升用户体验和拓宽语音技术的应用范围产生了积极影响。

数据集最近研究