Mandarin Speech Recognition Dataset

github2023-08-25 更新2024-05-31 收录

下载链接：

https://github.com/khuangaf/ITRI-speech-recognition-dataset-generation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在利用YouTube上丰富的台湾电视剧资源，收集包含台湾口音或英语的普通话语音识别数据。数据集生成过程包括视频下载、音频提取、帧分割、文本识别等步骤，最终形成用于自动语音识别训练的数据集。

This dataset aims to leverage the abundant resources of Taiwanese TV dramas on YouTube to collect Mandarin speech recognition data that includes Taiwanese accents or English. The dataset generation process involves steps such as video downloading, audio extraction, frame segmentation, and text recognition, ultimately forming a dataset for automatic speech recognition training.

创建时间：

2018-06-08

原始信息汇总

数据集概述

数据集名称

Automatic Speech Recognition Dataset Generation

作者

Kung-hsiang, Huang (Steeve), 2018

数据集目的

利用YouTube上丰富的台湾电视剧资源，收集包含台湾或英语语音的普通话语音识别数据集。

数据集结构

src/: 存储所有代码。
mandarin/: 存储所有中间和最终结果，包括以下子目录：
- videos/: 存储下载的视频。
- audios/: 存储从视频中提取的音频。
- frames/: 存储从视频中分割的帧。
- maskrcnn_results/: 存储由Mask-RCNN处理的帧结果。
- ocr_results/: 存储每个视频的OCR结果的CSV文件。
- srts/: 存储每个视频的SRT文件。
- processed_videos/: 存储已被分割成帧的视频。
- processed_frames/: 存储已被Mask-RCNN处理的帧。
/Mask_RCNN: Mask-RCNN的目录，包括：
- logs/: 存储训练日志（tensorboard格式）和Mask-RCNN的权重。
- samples/subtitle/: 存储训练日志（tensorboard格式）和Mask-RCNN的权重。
docs/: 向总导演的演示文稿。

主要文件

mandarin_drama.txt: 用于download_video.py的输入文件，每行包含一个电视剧（播放列表）名称。
download_videos.py: 使用YouTube API下载视频。
split_videos.py: 使用FFMPEG分割视频。
run_mask_rcnn.py: 运行Mask-RCNN以移除图像中除字幕外的所有内容。
ocr_to_csv.py: 使用Google OCR API检测帧中的文本。
csv_to_srt.py: 将OCR结果聚合到SRT文件中。
automatic_script.sh: 运行整个管道的脚本。
Dataset Generation Mask-RCNN .ipynb: 生成Mask-RCNN训练数据集的Jupyter笔记本。

使用方法

训练Mask-RCNN:
- 准备几种TrueType字体和从下载的视频中分割的图像。运行Dataset Generation Mask-RCNN .ipynb，然后运行Mask_RCNN/samples/subtitle下的subtitle.py。
自动运行整个管道:
- 运行bash automatic_script.sh。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程充分利用了YouTube平台上丰富的台湾电视剧资源。首先，通过YouTube API下载视频，随后使用FFMPEG工具将视频分割为音频和帧图像。接着，利用Mask-RCNN模型对帧图像进行处理，去除除字幕外的所有内容。最后，通过Google OCR API检测帧图像中的文本，并将OCR结果聚合为SRT字幕文件。整个流程自动化程度高，确保了数据的高效生成与处理。

特点

该数据集的特点在于其多样性和实用性。它不仅包含了大量的普通话语音数据，还融合了部分台湾方言和英语语音，丰富了语音识别的训练素材。此外，数据集通过自动化流程生成，确保了数据的准确性和一致性。Mask-RCNN模型的使用进一步提升了字幕提取的精度，使得数据集在语音识别领域具有较高的应用价值。

使用方法

使用该数据集时，用户需首先配置Python 3.6环境，并安装所需的依赖包。通过运行自动脚本`automatic_script.sh`，用户可以自动化地完成从视频下载到字幕生成的整个流程。对于Mask-RCNN模型的训练，用户需准备相应的字体和图像数据，并运行提供的Jupyter笔记本和训练脚本。该数据集的使用方法简洁明了，适合研究人员和开发者快速上手并进行语音识别相关的研究与开发。

背景与挑战

背景概述

在语音识别领域，尽管英语语音识别数据集丰富多样，但针对普通话，尤其是包含台湾口音或英语混合的普通话数据集却相对稀缺。2018年，由Kung-hsiang Huang（Steeve）主导的团队，利用YouTube上丰富的台湾电视剧资源，构建了一个普通话语音识别数据集。该数据集通过自动化的数据收集和处理流程，包括视频下载、音频提取、帧分割、Mask-RCNN处理、OCR文本识别以及SRT文件生成等步骤，旨在填补这一领域的空白。这一工作不仅推动了普通话语音识别技术的发展，也为多语言混合语音识别提供了宝贵的数据资源。

当前挑战

构建普通话语音识别数据集面临多重挑战。首先，数据集的多样性要求高，需涵盖不同口音、语速和背景噪音的语音样本，以确保模型的泛化能力。其次，数据预处理流程复杂，涉及视频分割、音频提取、图像处理等多个步骤，每一步的精度和效率都直接影响最终数据集的质量。此外，OCR技术的准确性对生成的字幕文件至关重要，任何误差都会导致语音与文本的不匹配，进而影响模型的训练效果。最后，数据集的规模也是一个挑战，如何在保证数据质量的同时，扩大数据集的规模，以满足深度学习模型的需求，是研究者需要持续解决的问题。

常用场景

经典使用场景

在语音识别领域，Mandarin Speech Recognition Dataset 数据集被广泛用于训练和测试普通话语音识别模型。该数据集通过从台湾电视剧中提取音频和字幕，生成了丰富的语音和文本对，特别适用于研究普通话与台湾方言或英语混合的语音识别问题。研究人员可以利用该数据集进行端到端的语音识别模型训练，提升模型在复杂语言环境下的表现。

解决学术问题

该数据集解决了普通话语音识别研究中数据稀缺的问题，尤其是针对包含台湾方言或英语混合的语音数据。通过提供高质量的语音和文本对，研究人员能够更准确地训练和评估语音识别模型，推动普通话语音识别技术的发展。此外，该数据集还为多语言混合环境下的语音识别研究提供了宝贵的数据支持。

衍生相关工作

基于 Mandarin Speech Recognition Dataset 数据集，许多经典的研究工作得以展开。例如，研究人员利用该数据集开发了基于深度学习的端到端语音识别模型，显著提升了普通话语音识别的准确率。此外，该数据集还被用于研究多语言混合环境下的语音识别问题，推动了相关领域的技术进步。这些研究工作不仅丰富了语音识别领域的研究成果，还为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集