gttsehu/basque_parliament_1

Name: gttsehu/basque_parliament_1
Creator: gttsehu
Published: 2024-07-12 12:49:17
License: 暂无描述

Hugging Face2024-07-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gttsehu/basque_parliament_1

下载链接

链接失效反馈

官方服务：

资源简介：

巴斯克议会语音语料库1.0包含1462小时的语音数据，这些数据提取自2013年至2022年的巴斯克议会全体会议。数据以MP3文件形式编码，包含759192个转录片段，这些片段使用巴斯克语、西班牙语或双语（巴斯克语和西班牙语）进行。该语料库旨在帮助开发巴斯克语的语音技术，同时也适用于开发双语自动语音识别（ASR）系统。数据集分为四个部分：train、train_clean、dev和test，每个部分包含3-10秒的语音片段及其对应的转录文本。此外，每个片段还包括说话者标识和语言标签。

提供机构：

gttsehu

原始信息汇总

Basque Parliament Speech Corpus 1.0 数据集概述

数据集描述

数据集摘要

Basque Parliament Speech Corpus 1.0 包含从2013年到2022年巴斯克议会全体会议中提取的1462小时语音数据。这些数据以MP3文件形式存储，包含759192个转录片段，语言包括巴斯克语、西班牙语或两者混合。该语料库旨在帮助发展巴斯克语的语音技术，该语言资源相对较少。然而，该数据集也适用于开发双语自动语音识别（ASR）系统，即解码巴斯克语和/或西班牙语的语音信号。由于巴斯克语和西班牙语在音素/音位层面的相似性，声学模型可以共享这两种语言，从而克服巴斯克语训练数据不足的问题。

数据集包含四个部分：train、train_clean、dev和test，所有部分都包含3-10秒长的语音片段及其相应的转录文本。除了转录文本外，每个片段还包括说话者标识符和语言标签（西班牙语、巴斯克语或双语）。

train 部分旨在估计声学模型，从2013-2021年的会议中提取，总计1445小时语音。
train_clean 部分是train部分的子集，仅包含高度可靠的转录文本。
dev 和 test 部分分别包含7.6小时和9.6小时的语音，从2022年2月的会议中提取，其转录文本经过手动审核。

语言

数据集包含巴斯克语（eu）、西班牙语（es）或两者混合（bi）的语音片段。语言分布严重偏向西班牙语，双语片段非常少见。

各语言的时长（小时）分布如下：

Split	es	eu	bi	Total
train	1018.6	409.5	17.0	1445.1
train_clean	937.7	363.6	14.2	1315.5
dev	4.7	2.6	0.3	7.6
test	6.4	2.8	0.4	9.6

各语言的片段数量分布如下：

Split	es	eu	bi	Total
train	524942	216201	8802	749945
train_clean	469937	184950	6984	661871
dev	2567	1397	131	4095
test	3450	1521	181	5152

数据集包含四个配置，可用于选择全套多语言片段或仅限于单一语言的子集：

all : 所有片段
es : 仅西班牙语片段
eu : 仅巴斯克语片段
bi : 仅双语片段

5,000+

优质数据集

54 个

任务类型

进入经典数据集