ParlaSpeech-CZ

Name: ParlaSpeech-CZ
Creator: CLASSLA - CLARIN Knowledge Centre for South Slavic Languages
Published: 2024-07-25 20:52:58
License: 暂无描述

Hugging Face2024-07-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/classla/ParlaSpeech-CZ

下载链接

链接失效反馈

官方服务：

资源简介：

ParlaSpeech-CZ.v1.0数据集是从捷克议会记录的ParlaMint语料库和捷克议会的YouTube频道上的议会录音构建的。该数据集包含与转录文本中特定句子对应的音频段，并提供了单词级别的对齐，包括字符和毫秒的开始和结束偏移。数据集已经移除了超过30秒的序列，适用于大多数现代GPU。每个段都有一个标识符引用ParlaMint 4.0语料库。在HuggingFace版本中，只提供了部分元数据，如日期、发言者姓名、性别、出生年份、党派归属等。此外，该版本还包含一个`text_normalised`属性，去除了议会评论。

提供机构：

CLASSLA - CLARIN Knowledge Centre for South Slavic Languages

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集名称

ParlaSpeech-CZ.v1.0

数据来源

该数据集由捷克部分ParlaMint语料库中的议会会议记录和捷克议会YouTube频道提供的议会录音构建而成。

数据内容

数据集包含与记录中特定句子对应的音频片段，并提供单词级别的对齐信息，包括字符和毫秒的起始和结束偏移。每个片段通过话语ID和字符偏移与ParlaMint 4.0语料库关联。

数据特征

audio: 音频数据，采样率为16000Hz。
audio_end: 音频结束时间，数据类型为float64。
audio_length: 音频长度，数据类型为float64。
audio_source: 音频来源，数据类型为string。
audio_start: 音频开始时间，数据类型为float64。
id: 标识符，数据类型为string。
sentence_id: 句子标识符，数据类型为string。
speaker_info: 说话者信息，包含多个子字段，如Agenda、Body、Date等，数据类型均为string。
text: 文本内容，数据类型为string。
text_end: 文本结束位置，数据类型为int64。
text_start: 文本开始位置，数据类型为int64。
words: 单词列表，包含多个子字段，如char_e、char_s、id等，数据类型分别为int64和string。

数据分割

train: 训练集，包含720091个样本，总大小为187604534404.769字节。

数据集大小

下载大小: 40094695351字节。
数据集大小: 187604534404.769字节。

数据集特点

已移除超过30秒的序列，适用于大多数现代GPU。
包含text_normalised属性，移除了议会评论（如[[Applause]]等）。

引用信息

@inproceedings{ljubesic-etal-2022-parlaspeech, title = "{P}arla{S}peech-{HR} - a Freely Available {ASR} Dataset for {C}roatian Bootstrapped from the {P}arla{M}int Corpus", author = "Ljube{v{s}}i{c}, Nikola and Kor{v{z}}inek, Danijel and Rupnik, Peter and Jazbec, Ivo-Pavao", editor = "Fi{v{s}}er, Darja and Eskevich, Maria and Lenardi{v{c}}, Jakob and de Jong, Franciska", booktitle = "Proceedings of the Workshop ParlaCLARIN III within the 13th Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.parlaclarin-1.16", pages = "111--116", }

搜集汇总

数据集介绍

构建方式

ParlaSpeech-CZ数据集基于捷克议会会议的转录文本构建，这些文本源自ParlaMint语料库的捷克部分，并结合了AudioPSP数据集中的议会录音。数据集的音频片段与转录文本中的特定句子相对应，且每个实例均包含字符和毫秒级的起始与结束偏移量，便于进一步将长句子分割为较短的片段，适用于自动语音识别（ASR）等对内存敏感的应用场景。数据集已移除超过30秒的序列，以适应现代GPU的处理能力。

特点

ParlaSpeech-CZ数据集的特点在于其丰富的元数据信息，包括日期、发言人姓名、性别、出生年份、所属政党及其在特定时间点的状态（如执政党或反对党）和政党倾向（左翼、右翼、中间派等）。此外，数据集还提供了经过标准化的文本内容，移除了议会会议中的非语言注释（如掌声等）。每个音频片段均与ParlaMint 4.0语料库中的话语ID和字符偏移量相关联，便于进一步研究与分析。

使用方法

使用ParlaSpeech-CZ数据集时，用户可通过HuggingFace平台直接加载数据，并利用其提供的音频片段和转录文本进行自动语音识别、语音合成或其他相关研究。数据集的标准化文本和丰富的元数据信息为语言模型训练和议会语言分析提供了重要支持。用户在使用时需引用相关论文，以确保学术规范。

背景与挑战

背景概述

ParlaSpeech-CZ数据集是基于捷克议会会议的转录文本构建的，源自ParlaMint语料库和AudioPSP数据集。该数据集由音频片段组成，每个片段对应转录文本中的特定句子，并包含字符和毫秒级的起始与结束偏移量，便于进一步分割长句子以适应自动语音识别（ASR）等内存敏感应用。数据集创建于2022年，由Nikola Ljubešić等研究人员主导，旨在为捷克语的语音识别研究提供高质量资源。其核心研究问题在于如何从议会会议中提取并标注语音数据，以支持多语言语音技术的开发与优化。该数据集对语音识别、自然语言处理以及多语言研究领域具有重要影响力。

当前挑战

ParlaSpeech-CZ数据集在构建过程中面临多重挑战。首先，议会会议音频与转录文本的精确对齐是一个复杂的技术问题，尤其是在处理多说话人、背景噪音和语速变化的情况下。其次，数据集中包含丰富的元数据，如发言人信息、党派归属等，这些信息的提取与整合需要高度的准确性和一致性。此外，由于议会语言的特殊性，如掌声、打断等非语言元素的标注与处理也增加了数据清洗的难度。在应用层面，该数据集旨在解决捷克语语音识别的领域问题，但由于捷克语的形态复杂性和低资源特性，模型的训练与优化仍面临显著挑战。

常用场景

经典使用场景

ParlaSpeech-CZ数据集广泛应用于自动语音识别（ASR）系统的训练与评估。其独特的音频与文本对齐特性，使得研究者能够精确地分析语音与文本之间的对应关系，进而提升ASR模型的准确性。此外，该数据集还支持多任务学习，如语音情感分析、说话人识别等，为语音处理领域的研究提供了丰富的数据支持。

解决学术问题

ParlaSpeech-CZ数据集解决了语音识别领域中数据稀缺与标注不精确的问题。通过提供高质量的音频与文本对齐数据，研究者能够更有效地训练ASR模型，减少模型在复杂语音环境下的错误率。此外，该数据集还支持多语言、多方言的研究，为跨语言语音识别提供了重要的数据基础。

衍生相关工作

ParlaSpeech-CZ数据集衍生了一系列经典的研究工作，如基于该数据集的跨语言语音识别模型、多任务学习的语音处理框架等。这些研究不仅推动了语音识别技术的发展，还为其他相关领域如自然语言处理、语音合成等提供了重要的参考与借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集