fleurs_yo_en
收藏Hugging Face2024-12-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Bloomcode/fleurs_yo_en
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从Google FLEURS数据集中提取的Yoruba-to-English翻译数据集。数据集包含训练集、验证集和测试集中的音频记录,分别对应13小时48分钟32秒、44分钟32秒和45分钟27秒的音频数据。所有音频都以16kHz采样。数据集的特征包括音频、Yoruba语言的转录和相应的英语翻译。
创建时间:
2024-12-09
原始信息汇总
数据集概述
数据集简介
该数据集是从Google FLEURS数据集中提取的约鲁巴语到英语的翻译数据集。数据集包含约鲁巴语部分的音频数据及其对应的英语翻译。训练集包含13小时48分32秒的音频数据,验证集和测试集分别包含44分32秒和45分27秒的音频数据。所有音频数据均以16kHz采样。
数据集结构
数据集包含以下三个部分:
- 训练集:包含3150个样本,每个样本包含
id、audio、text_yo(约鲁巴语转录)和text_en(英语翻译)。 - 测试集:包含175个样本,每个样本包含
id、audio、text_yo和text_en。 - 验证集:包含175个样本,每个样本包含
id、audio、text_yo和text_en。
数据集特征
数据集包含以下特征:
- audio:音频数据,采样率为16kHz。
- text_yo:约鲁巴语转录。
- text_en:英语翻译。
数据集处理
数据集直接从google/fleurs数据集中提取,并进行了以下处理:
- 保留了
id、audio、text_yo和text_en列。 - 音频数据重新采样为16kHz。
- 约鲁巴语转录和英语翻译进行了对齐。
引用
@article{fleurs2022arxiv, title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech}, author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur}, journal={arXiv preprint arXiv:2205.12446}, url = {https://arxiv.org/abs/2205.12446}, year = {2022}, }
搜集汇总
数据集介绍

构建方式
该数据集fleurs_yo_en是从Google FLEURS数据集中提取的约鲁巴语到英语的翻译数据集。其构建过程包括从原始数据集中筛选出约鲁巴语的音频数据及其对应的英语翻译,音频数据被重新采样至16kHz,并确保约鲁巴语转录与英语翻译之间的对齐。数据集的结构经过简化,仅保留了音频、约鲁巴语转录和英语翻译等关键信息,以确保数据集的精简与高效。
特点
fleurs_yo_en数据集的主要特点在于其专注于约鲁巴语与英语之间的翻译任务,提供了高质量的音频数据及其对应的文本转录。音频数据采样率为16kHz,确保了音频质量的稳定性。此外,数据集的结构设计简洁,便于直接应用于语音识别与翻译模型,尤其是在处理跨语言翻译任务时,具有较高的实用价值。
使用方法
使用fleurs_yo_en数据集时,用户可以通过加载数据集中的音频文件及其对应的约鲁巴语和英语文本,进行语音识别、翻译模型训练或评估。数据集提供了训练、测试和验证三个子集,用户可以根据需求选择合适的子集进行实验。此外,数据集的音频数据已预处理为16kHz采样率,用户可以直接使用,无需额外处理。
背景与挑战
背景概述
fleurs_yo_en数据集源自Google FLEURS项目,专注于尤鲁巴语到英语的翻译任务。该数据集由Conneau等人于2022年创建,旨在通过少样本学习评估通用语音表示的性能。数据集包含了超过13小时的训练音频数据,以及分别约45分钟的验证和测试音频数据,采样率为16kHz。其核心研究问题在于如何有效处理低资源语言的语音翻译,尤其是在尤鲁巴语这类使用范围较窄的语言中。该数据集的发布对低资源语言翻译领域的研究具有重要意义,为研究人员提供了宝贵的资源,推动了跨语言语音识别与翻译技术的发展。
当前挑战
fleurs_yo_en数据集在构建过程中面临多项挑战。首先,尤鲁巴语作为一种低资源语言,其语音数据的获取与标注难度较大,尤其是在确保翻译准确性方面。其次,音频数据的采样与处理需要高精度的技术支持,以确保语音与文本的对齐。此外,数据集的规模相对较小,如何在有限的样本中实现高效的模型训练与评估,是该数据集面临的主要挑战之一。最后,跨语言翻译的复杂性要求模型能够准确捕捉尤鲁巴语与英语之间的语义差异,这对模型的语言理解能力提出了更高的要求。
常用场景
经典使用场景
在跨语言语音翻译领域,fleurs_yo_en数据集展现了其经典应用场景。该数据集通过提供约鲁巴语(Yoruba)与英语之间的语音和文本对齐数据,为研究者构建高效的语音翻译模型提供了坚实的基础。其核心应用在于训练和评估从约鲁巴语到英语的语音翻译系统,涵盖了从语音识别到文本翻译的全流程。
衍生相关工作
fleurs_yo_en数据集的发布催生了一系列相关研究工作。研究者基于该数据集开发了多种语音翻译模型,探索了低资源语言的语音识别与翻译技术。此外,该数据集还被用于评估跨语言语音表示学习的效果,推动了Few-shot Learning在语音领域的应用。相关工作已在多个学术会议上发表,进一步扩展了该数据集的影响力。
数据集最近研究
最新研究方向
在多语言语音翻译领域,fleurs_yo_en数据集的最新研究方向主要集中在提升低资源语言的翻译质量和模型泛化能力。该数据集通过提供约鲁巴语到英语的语音翻译数据,为研究者提供了一个宝贵的资源,以探索如何在有限的数据条件下实现高效的跨语言语音识别与翻译。当前的研究热点包括利用预训练模型和迁移学习技术,以增强模型对约鲁巴语等低资源语言的理解和翻译能力。此外,研究者还在探索如何通过数据增强和多任务学习等方法,进一步提高模型的鲁棒性和翻译准确性。这些研究不仅有助于推动约鲁巴语的语音识别技术发展,也为其他低资源语言的翻译研究提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



