Czech Parliament Meetings

github2020-11-24 更新2024-05-31 收录

下载链接：

https://github.com/Sixtease/cz-parliament-speech-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含约200GB可下载mp3文件的大型公开数据集，用于语音识别系统的训练。数据集中的转录文本是手动的，精度很高，但缺乏机器可读的元数据和松散的对齐。

A large-scale public dataset comprising approximately 200GB of downloadable mp3 files, intended for training speech recognition systems. The transcriptions within the dataset are manually annotated with high accuracy, yet they lack machine-readable metadata and exhibit loose alignment.

创建时间：

2020-04-03

原始信息汇总

数据集概述

数据集名称

Czech Parliament Meetings for Speech Recognition

数据集内容

包含约200GB的mp3录音文件，来源于捷克议会的会议记录。
手动转录的文本，非完全字面，但精度很高。
缺乏机器可读的元数据，对齐较为宽松。

数据集用途

用于训练文本到语音系统的数据集。
可用于训练种子模型，以进行自动语音识别。

数据集特点

数据集大小约为200GB，包含大量的mp3录音文件。
转录文本由人工完成，精度较高但非完全字面。
缺乏机器可读的元数据，对齐方式较为宽松。

数据集获取

录音和转录文本可从捷克议会网站获取：psp.cz/eknih。
使用Scrapy工具从网站上抓取转录文本及其对应的mp3链接。
使用脚本download-scraped-audio.sh下载mp3文件。

数据集处理

使用Python模块如Scrapy和Levenshtein进行数据抓取和处理。
安装Julius和HTK工具进行初始对齐转录。
使用KenLM构建语言模型。
通过自动化工具进行音频文件和文本的对齐，生成30秒以内的wav-txt文件对。

数据集最终目标

生成30秒以内的wav-txt文件对，用于进一步的语音识别训练。

搜集汇总

数据集介绍

构建方式

Czech Parliament Meetings数据集的构建过程始于对捷克议会会议记录及其速记文本的收集。首先，通过爬虫技术从议会网站抓取与音频文件对应的文本记录和MP3链接。随后，下载所有MP3文件，并利用西波希米亚大学提供的标注语料库训练初始模型。接着，使用该模型对音频进行自动转录，并保持单词级别的强制对齐。最后，将自动转录结果与手动转录文本进行对齐，生成与可靠手动转录对齐的音频片段。

使用方法

使用Czech Parliament Meetings数据集时，首先需安装必要的Python模块和工具，如scrapy、julius和HTK。接着，通过爬虫脚本抓取议会网站的文本和音频链接，并下载相应的MP3文件。随后，利用初始模型进行自动转录，并对转录结果进行对齐处理。最终，生成与可靠手动转录对齐的音频片段，适用于语音识别模型的训练和评估。

背景与挑战

背景概述

Czech Parliament Meetings数据集由捷克西波西米亚大学（University of West Bohemia in Pilsen）通过Lindat/Clarin平台发布，旨在为语音识别系统提供训练数据。该数据集基于捷克议会的会议录音及其速记文本，涵盖了大量的音频文件（约200GB的MP3格式）和相应的文本转录。尽管转录文本并非完全逐字逐句，但其精确度较高。该数据集的核心研究问题在于如何从非结构化的议会会议录音中提取出可用于语音识别的高质量训练数据，特别是通过自动对齐技术将音频与文本进行精确匹配。该数据集对语音识别领域的研究具有重要影响，尤其是在处理多语言、多领域的语音数据时，提供了宝贵的资源。

当前挑战

Czech Parliament Meetings数据集在构建和应用过程中面临多重挑战。首先，数据集的原始音频和文本之间缺乏精确的对齐，尽管转录文本的精确度较高，但其与音频的时间对齐仍存在较大误差，这为后续的语音识别模型训练带来了困难。其次，数据集的构建过程涉及复杂的自动化流程，包括音频下载、初始转录、文本对齐等步骤，每一步都需要依赖多种工具和模型（如HTK、Julius等），技术门槛较高。此外，数据集的规模庞大，处理时间较长，尤其是在初始转录阶段，计算资源的需求较高。最后，数据集的元数据缺失，缺乏机器可读的结构化信息，这进一步增加了数据处理的复杂性。

常用场景

经典使用场景

Czech Parliament Meetings数据集在语音识别领域具有广泛的应用，尤其是在训练和优化文本到语音（TTS）系统方面。该数据集通过提供大量的议会会议录音及其对应的文字记录，为研究人员提供了一个丰富的资源库，用于训练和测试语音识别模型。其经典使用场景包括生成短时音频-文本对，这些对可用于训练种子模型，进而提高自动转录的准确性。

解决学术问题

该数据集解决了语音识别领域中数据稀缺和标注不精确的问题。通过提供高质量的议会会议录音和手动转录文本，研究人员可以利用这些数据进行模型训练，从而提高语音识别系统的准确性和鲁棒性。此外，数据集中的对齐工具和自动转录流程也为学术界提供了新的研究方向，尤其是在语音对齐和转录可靠性方面。

实际应用

在实际应用中，Czech Parliament Meetings数据集被广泛用于开发语音识别引擎，如Mozilla的DeepSpeech。通过该数据集训练的模型可以应用于多种场景，包括实时语音转录、语音助手开发以及语音数据分析。特别是在需要高精度转录的场合，如法律、新闻和会议记录等领域，该数据集的应用尤为显著。

数据集最近研究