five

gttsehu/basque_parliament_1

收藏
Hugging Face2024-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gttsehu/basque_parliament_1
下载链接
链接失效反馈
官方服务:
资源简介:
巴斯克议会语音语料库1.0包含1462小时的语音数据,这些数据提取自2013年至2022年的巴斯克议会全体会议。数据以MP3文件形式编码,包含759192个转录片段,这些片段使用巴斯克语、西班牙语或双语(巴斯克语和西班牙语)进行。该语料库旨在帮助开发巴斯克语的语音技术,同时也适用于开发双语自动语音识别(ASR)系统。数据集分为四个部分:train、train_clean、dev和test,每个部分包含3-10秒的语音片段及其对应的转录文本。此外,每个片段还包括说话者标识和语言标签。

巴斯克议会语音语料库1.0包含1462小时的语音数据,这些数据提取自2013年至2022年的巴斯克议会全体会议。数据以MP3文件形式编码,包含759192个转录片段,这些片段使用巴斯克语、西班牙语或双语(巴斯克语和西班牙语)进行。该语料库旨在帮助开发巴斯克语的语音技术,同时也适用于开发双语自动语音识别(ASR)系统。数据集分为四个部分:train、train_clean、dev和test,每个部分包含3-10秒的语音片段及其对应的转录文本。此外,每个片段还包括说话者标识和语言标签。
提供机构:
gttsehu
原始信息汇总

Basque Parliament Speech Corpus 1.0 数据集概述

数据集描述

数据集摘要

Basque Parliament Speech Corpus 1.0 包含从2013年到2022年巴斯克议会全体会议中提取的1462小时语音数据。这些数据以MP3文件形式存储,包含759192个转录片段,语言包括巴斯克语、西班牙语或两者混合。该语料库旨在帮助发展巴斯克语的语音技术,该语言资源相对较少。然而,该数据集也适用于开发双语自动语音识别(ASR)系统,即解码巴斯克语和/或西班牙语的语音信号。由于巴斯克语和西班牙语在音素/音位层面的相似性,声学模型可以共享这两种语言,从而克服巴斯克语训练数据不足的问题。

数据集包含四个部分:traintrain_cleandevtest,所有部分都包含3-10秒长的语音片段及其相应的转录文本。除了转录文本外,每个片段还包括说话者标识符和语言标签(西班牙语、巴斯克语或双语)。

  • train 部分旨在估计声学模型,从2013-2021年的会议中提取,总计1445小时语音。
  • train_clean 部分是train部分的子集,仅包含高度可靠的转录文本。
  • devtest 部分分别包含7.6小时和9.6小时的语音,从2022年2月的会议中提取,其转录文本经过手动审核。

语言

数据集包含巴斯克语(eu)、西班牙语(es)或两者混合(bi)的语音片段。语言分布严重偏向西班牙语,双语片段非常少见。

各语言的时长(小时)分布如下:

Split es eu bi Total
train 1018.6 409.5 17.0 1445.1
train_clean 937.7 363.6 14.2 1315.5
dev 4.7 2.6 0.3 7.6
test 6.4 2.8 0.4 9.6

各语言的片段数量分布如下:

Split es eu bi Total
train 524942 216201 8802 749945
train_clean 469937 184950 6984 661871
dev 2567 1397 131 4095
test 3450 1521 181 5152

数据集包含四个配置,可用于选择全套多语言片段或仅限于单一语言的子集:

  • all : 所有片段
  • es : 仅西班牙语片段
  • eu : 仅巴斯克语片段
  • bi : 仅双语片段
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作