BENYO-S2ST-Corpus-1

Name: BENYO-S2ST-Corpus-1
Creator: Covenant University, Ota, Nigeria
Published: 2025-07-30 13:48:27
License: 暂无描述

arXiv2025-07-30 更新2025-07-16 收录

下载链接：

https://bit.ly/40bGMwi

下载链接

链接失效反馈

官方服务：

资源简介：

BENYO-S2ST-Corpus-1是一个英语到约鲁巴的双语语音到语音翻译语料库，由尼日利亚的Covenant University等多家机构的研究人员创建。该语料库基于一个混合架构，该架构旨在以较低的成本创建大规模的直接语音到语音翻译语料库。语料库包含12,032个音频样本（每种语言），总共有24,064个样本。英语音频的总时长为17.81小时，而约鲁巴音频的总时长为23.39小时。该语料库不仅用于构建语音到语音翻译模型，还可以用于构建预训练模型或改进现有模型，以解决其他下游任务，如文本到语音（TTS）、直接语音到文本（S2T）、自动语音识别（ASR）和神经机器翻译（NMT）。

BENYO-S2ST-Corpus-1 is an English-Yoruba bilingual speech-to-speech translation corpus created by researchers from Covenant University in Nigeria and multiple other institutions. This corpus is based on a hybrid architecture designed to develop large-scale direct speech-to-speech translation corpora at a low cost. It contains 12,032 audio samples per language, totaling 24,064 samples. The total duration of the English audio samples is 17.81 hours, while that of the Yoruba audio samples is 23.39 hours. This corpus can not only be used to build speech-to-speech translation models, but also to construct pre-trained models or improve existing ones to address other downstream tasks, such as text-to-speech (TTS), direct speech-to-text (S2T), automatic speech recognition (ASR), and neural machine translation (NMT).

提供机构：

Covenant University, Ota, Nigeria

创建时间：

2025-07-13

原始信息汇总

BENYO-S2ST-Corpus-1 数据集概述

基本信息

数据集名称: BENYO-S2ST-Corpus-1
创建者: aspmirlab
点赞数: 1
模态: Audio
ArXiv论文: arxiv:2507.09342
许可证: apache-2.0

数据集描述

Bilingual English-to-Yorùbá Speech-to-Speech Translation Corpus Version 1 (BENYO-S2ST-Corpus-1) 是一个基于混合架构开发的语音到语音翻译(S2ST)数据集。该数据集通过结合非语音到语音的标准约鲁巴语(SY)实时录音和合成的标准英语(SE)音频及其对应文本，利用预训练AI模型生成。此外，还开发了名为AcoustAug的音频增强算法，基于三种潜在声学特征（音高、音量和速度）从原始音频生成增强音频。

数据集规模

英语音频样本数: 12,032
约鲁巴语音频样本数: 12,032
总样本数: 24,064
英语音频时长:
- 最短: 1.12s
- 最长: 14.85s
- 平均: 5.33s
- 总计: 64,131.71s (17.81小时)
约鲁巴语音频时长:
- 最短: 1.13s
- 最长: 16.62s
- 平均: 7.00s
- 总计: 84,201.80s (23.39小时)
总音频时长: 41.20小时

数据集应用

构建S2ST模型
构建预训练模型或改进现有模型，用于其他下游任务（如TTS、S2T、ASR和NMT）
为多语言到低资源非洲语言的语料库提供参考

公开文件

BENYO-S2ST-Corpus-1-Augmented-English-Audio-12k-Samples
BENYO-S2ST-Corpus-1-Augmented-Yoruba-Audio-12k-Samples
BENYO-S2ST-Corpus-1-Transcripts&Filenames-Metadata.xlsx

资金支持

项目名称: A Direct Speech-to-Speech Model for English-to-Yoruba Translation Towards Bridging Language Barriers in Public Health Education Outreaches
资助方: 2024 Google Academic Research Award (GARA) for Society Centered Artificial Intelligence (SCAI)

联系方式

邮箱: emmanueladetiba@gmail.com, emmanuel.adetiba@covenantuniversity.edu.ng

下载统计

上月下载量: 142

搜集汇总

数据集介绍

构建方式

BENYO-S2ST-Corpus-1数据集的构建采用了混合架构方法，结合了实时录音与AI合成音频技术。研究团队首先从YORULECT语料库中提取了1,504条标准约鲁巴语（SY）音频及对应英语文本，随后利用Meta AI的MMS系统将英语文本合成为单说话人语音。为增强数据多样性，团队开发了基于音高、音量、语速三个潜在声学特征的AcoustAug音频增强算法，使每种语言的样本量扩充至原始数据的8倍（12,032条），最终形成总时长41.2小时的双语平行语音库。该架构显著降低了高资源（英语）到低资源（约鲁巴语）语言对的语料构建成本。

特点

该数据集的核心价值体现在三方面：其一，规模突破性，包含24,064个平行样本（英语/约鲁巴语各12,032条），远超现有高-低资源语言对<20小时的语料规模；其二，声学多样性，通过多因子增强策略覆盖不同音高（0.95/1.05倍）、音量（-5dB/+5dB/+10dB）和语速（0.9/1.1倍）组合，STOI与PESQ指标验证其保持了原始语音的感知质量；其三，多任务适配性，除直接S2ST任务外，其分层结构（原始/增强音频+对齐文本）支持ASR、TTS、NMT等下游任务，特别为资源极度匮乏的约鲁巴语提供了17.81小时（英语）和23.39小时（约鲁巴语）的高质量语音数据。

使用方法

使用者可通过HuggingFace平台获取分语言存储的增强音频文件夹（augmented-audio-eng-12k/Yor）及四列式元数据文件（含音频文件名、转录文本）。对于S2ST任务，建议利用metadata.csv中的严格对齐字段构建端到端训练集；ASR/TTS开发者可分别提取单语文本-音频对，其中约鲁巴语文本采用UTF-8编码并保留关键变音符号（如ẹ,ọ,ṣ）。研究团队已基于该语料训练出约鲁巴语TTS模型YoruTTS-0.5（F0-RMSE=63.54），其Coqui框架适配代码与训练参数（如VITSConfig的batch_size=16、mel_fmax=None等）可作为其他低资源语言迁移学习的参考模板。

背景与挑战

背景概述

BENYO-S2ST-Corpus-1是由Covenant University等机构的研究团队于2024年创建的英约双语语音-语音翻译语料库，旨在解决高资源语言（英语）到低资源语言（约鲁巴语）的语音翻译数据稀缺问题。该语料库基于混合架构，结合了真实录音与AI合成音频，通过创新的AcoustAug音频增强算法将样本量扩展至24,064个（每种语言12,032个），总时长41.2小时，显著超过现有同类资源的规模。作为首个面向约鲁巴语的大规模平行语音数据集，它不仅支持端到端语音翻译模型开发，还可用于语音识别、文本转语音等下游任务，对促进非洲低资源语言的数字包容性具有重要意义。

当前挑战

该数据集面临的核心挑战体现在两方面：领域问题上，约鲁巴语作为声调语言，其语音翻译需精准保留音高和韵律特征，而现有技术对低资源语言的声学建模仍存在精度不足的问题；构建过程中，原始语料YORULECT存在文本编码错误（如音调符号丢失）、单说话人局限，且需通过半自动化流程修复约鲁巴语转录。此外，依赖预训练模型（如MMS）合成英语音频可能引入域偏移，而数据增强算法需平衡声学特征变异与语音自然度的矛盾。这些挑战突显了低资源语言数据处理中质量控制与规模扩展的双重难度。

常用场景

经典使用场景

BENYO-S2ST-Corpus-1数据集在语音到语音翻译（S2ST）领域具有广泛的应用场景，尤其是在高资源语言（如英语）到低资源语言（如约鲁巴语）的翻译任务中。该数据集通过结合真实录音和合成音频，为研究人员提供了丰富的双语平行语音数据，支持端到端的S2ST模型训练和评估。其独特的混合架构和音频增强算法（AcoustAug）进一步提升了数据的多样性和模型的泛化能力。

衍生相关工作

基于BENYO-S2ST-Corpus-1，研究人员开发了约鲁巴语文本到语音模型YoruTTS-0.5，作为概念验证。该模型在训练1000个周期后达到了F0 RMSE值为63.54，显示出与真实音频在基音上的中等相似性。此外，数据集的架构还被用于其他非洲低资源语言的语音数据生成，进一步推动了多语言语音技术的发展。

数据集最近研究