Corpus audio breton

github2024-03-20 更新2024-05-31 收录

下载链接：

https://github.com/Ofis-publik-ar-brezhoneg/audio-breton-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

布列塔尼语音频语料库，由IRISA和布列塔尼语言公共办公室在布列塔尼语音合成项目框架内创建。包含Aziliz和Per两位说话者的录音，涵盖多种文本来源，总计近20小时的录音。

The Breton Audio Corpus, established by IRISA and the Public Office for the Breton Language within the framework of the Breton Speech Synthesis Project, includes recordings from two speakers, Aziliz and Per. It encompasses a variety of textual sources, totaling nearly 20 hours of audio recordings.

创建时间：

2023-01-10

原始信息汇总

数据集概述

数据集名称

Corpus audio breton

创建机构

IRISA
Office public de la langue bretonne

项目背景

用于布列塔尼语的语音合成项目。

语音数据

Aziliz (女性声音)
- 录制时间：2021年至2022年
- 总时长：约20小时
- 数据细分：
  - A1: 7928个文件，总时长10:15:01
  - A201-dialog_documents: 632个文件，总时长01:08:03
  - A201-dialog_mozilla: 1777个文件，总时长01:35:14
  - A203-tales: 556个文件，总时长00:54:18
  - A204-poems: 529个文件，总时长00:35:13
  - A205-recipes: 131个文件，总时长00:12:25
  - A207-proper_names: 1319个文件，总时长00:38:26
  - A208-letters_numbers: 56个文件，总时长00:01:43
  - A212-text_documents: 456个文件，总时长00:40:08
  - A212-text_mozilla: 1435个文件，总时长01:10:41
  - 总计: 14819个文件，总时长17:11:12
Per (男性声音)
- 录制时间：2021年至2022年
- 总时长：约20小时
- 数据细分：
  - P1-part1-slowed_tempo: 7182个文件，总时长08:50:05
  - P1-part2-original_tempo: 746个文件，总时长00:52:03
  - P201-dialog_documents: 634个文件，总时长01:12:18
  - P201-dialog_mozilla: 1777个文件，总时长01:26:45
  - P203-tales: 556个文件，总时长00:55:55
  - P204-poems: 529个文件，总时长00:41:18
  - P205-recipes: 131个文件，总时长00:08:49
  - P207-proper_names: 1875个文件，总时长00:47:45
  - P208-letters_numbers: 54个文件，总时长00:01:25
  - P212-text_documents: 452个文件，总时长00:27:10
  - P212-text_mozilla: 1435个文件，总时长01:04:41
  - 总计: 15371个文件，总时长16:28:14

数据文件格式

音频文件格式：.wav
元数据文件格式：.tsv

元数据文件结构

字段0: 关联的.wav文件名
字段1: 标准化转录
字段2: 文本转录
字段3: 语音转录
字段4: 音频文件是否已创建（1:是, 0:否）
字段5: 标准化是否已验证（1:是, 0:否）
字段6: 是否存在手动语音转录（1:是, 0:否）
字段7: 文本来源
字段8: 录音辅助信息（可选）
字段9: 双音素覆盖的层数（仅适用于较新的声音"loeiz"和"rozenn"）

文件命名规则

A代表Aziliz
P代表Per

搜集汇总

数据集介绍

构建方式

Corpus audio breton数据集由IRISA与布列塔尼语公共办公室合作构建，旨在支持布列塔尼语的语音合成研究。数据采集于2021年至2022年间，通过录制两位布列塔尼语母语者Aziliz和Per的语音完成。Aziliz和Per分别录制了近20小时的语音数据，涵盖了新闻、行政、技术、对话、故事、诗歌、食谱等多种文本类型。每个音频文件均配有详细的元数据，包括标准化转录、文本转录、音标转录等，确保了数据的多样性和完整性。

特点

该数据集的特点在于其丰富的语音内容和详尽的元数据标注。Aziliz和Per的语音数据分别包含超过14,000和15,000个音频文件，总时长分别达到17小时和16小时。数据集不仅涵盖了多种文本类型，还提供了音标转录和标准化转录，便于语音合成和语音识别的研究。此外，部分音频文件还包含手动音标转录，进一步提升了数据的精度和可用性。

使用方法

使用Corpus audio breton数据集时，用户可以通过对应的`.tsv`文件获取音频文件的元数据信息。每个`.tsv`文件包含音频文件名、标准化转录、文本转录、音标转录等多个字段，用户可以根据这些字段筛选和处理数据。数据集适用于语音合成、语音识别、语音分析等领域的研究。用户可以通过分析不同文本类型的语音数据，探索布列塔尼语的语音特征，或将其用于训练和测试语音处理模型。

背景与挑战

背景概述

Corpus audio breton 是一个专注于布列塔尼语语音合成的音频语料库，由法国IRISA研究所与布列塔尼语公共办公室合作创建，项目启动于2021年。该数据集旨在为布列塔尼语的语音合成技术提供高质量的语音数据支持，涵盖了多种文本来源的录音，包括新闻、行政文件、技术文档、诗歌、故事等。数据集包含两位发音人Aziliz和Per的录音，分别提供了近20小时的语音数据。该语料库的创建不仅推动了布列塔尼语的语音技术发展，也为濒危语言的数字化保护提供了重要参考。

当前挑战

Corpus audio breton 在构建过程中面临多重挑战。首先，布列塔尼语作为一种濒危语言，其语音数据的获取和标注难度较大，需要依赖专业的语言学家和发音人进行高质量录音与转录。其次，语音数据的多样性和覆盖范围要求广泛，包括不同文本类型和语音风格，这对录音和后期处理提出了较高要求。此外，语音合成技术的实现需要对语音数据进行精细的标注和标准化处理，以确保合成语音的自然度和准确性。最后，数据集的构建还需考虑语音数据的存储和管理，确保其可访问性和可扩展性，以支持后续的研究和应用。

常用场景

经典使用场景

Corpus audio breton 数据集在语音合成领域具有重要应用，特别是在布列塔尼语的语音合成研究中。该数据集包含了Aziliz和Per两位发音人的近20小时录音，涵盖了多种文本类型，如对话、诗歌、食谱等。这些多样化的语音数据为研究者提供了丰富的素材，用于训练和测试布列塔尼语语音合成模型。通过该数据集，研究者能够深入探索布列塔尼语的语音特征，优化语音合成技术的表现。

解决学术问题

Corpus audio breton 数据集解决了布列塔尼语语音合成研究中的关键问题，即缺乏高质量、多样化的语音数据。布列塔尼语作为一种濒危语言，其语音资源的稀缺性严重制约了相关技术的发展。该数据集通过提供大量经过标注的语音样本，填补了这一空白，使得研究者能够更有效地进行语音合成模型的训练和评估。这不仅推动了布列塔尼语语音合成技术的进步，也为其他濒危语言的语音研究提供了宝贵的参考。

衍生相关工作

基于Corpus audio breton 数据集，研究者们已经开展了多项经典工作，包括布列塔尼语语音合成模型的开发与优化、语音识别系统的构建以及语音特征的分析等。这些研究不仅提升了布列塔尼语语音技术的水平，也为其他濒危语言的语音研究提供了重要的方法论和工具。此外，该数据集还促进了跨学科合作，推动了语言学、计算机科学和人工智能等领域的交叉研究，进一步拓展了其学术影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集