iwslt_26_yor

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/adeola/iwslt_26_yor

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为2026年IWSLT挑战赛准备的约鲁巴语（Yoruba）音频数据集，适用于约鲁巴语的自动语音识别（ASR）以及从约鲁巴语到英语的语音到文本翻译（S2TT，需配合相应的英语数据集使用）。数据集包含多个分割部分，每个部分都有详细的字节大小和样本数量统计。数据特征包括音频数据（float32格式）、用户ID、语言、文本ID、文本内容、持续时间、录制时间、原始采样率、静音比例、信噪比（dB）、语速、音量（dB）以及数据分割标识。需要注意的是，当前数据集仅在流式传输设置为`True`时可用。

创建时间：

2026-02-26

原始信息汇总

数据集概述

基本描述

该数据集是为2026年IWSLT挑战赛准备的约鲁巴语（Yoruba）音频数据集。它适用于约鲁巴语自动语音识别（ASR）以及从约鲁巴语到英语的语音到文本翻译任务（当与配套的英语数据集结合使用时）。目前，该数据集仅在流式模式设置为True时可用。

语言

主要语言：约鲁巴语（yo）

任务类别

自动语音识别
翻译

数据集结构

特征

audio: 音频数据，数据类型为float32列表。
user_id: 用户ID，数据类型为string。
language: 语言标识，数据类型为string。
text_id: 文本ID，数据类型为string。
text: 对应文本，数据类型为string。
duration: 音频时长，数据类型为float64。
recorded_at: 录音时间，数据类型为string。
original_sample_rate: 原始采样率，数据类型为int64。
silence_ratio: 静音比例，数据类型为float64。
snr_db: 信噪比（分贝），数据类型为float64。
speech_rate: 语速，数据类型为float64。
volume_db: 音量（分贝），数据类型为float64。
split: 数据划分标识，数据类型为string。

数据划分与规模

开发集（dev）: 包含1,500个样本，数据量约为1,478,588,312字节。
训练集（train）: 包含452个样本，数据量约为1,236,091,131字节。
其他部分（part_*）: 包含多个以“part_”为前缀的子集，每个子集的样本数量在180至452个之间，数据量范围从约394,333,307字节到约2,281,515,045字节不等。
总下载大小: 22,391,551,550字节。
总数据集大小: 45,143,048,777字节。

配置

默认配置（default）:
- 开发集数据文件路径：data/dev-*
- 训练集数据文件路径：data/part_*

使用说明

该数据集目前仅在流式模式设置为True时正常工作。

搜集汇总

数据集介绍

构建方式

在语音识别与机器翻译领域，针对低资源语言的语料库构建尤为关键。iwslt_26_yor数据集专为2026年国际口语翻译研讨会挑战赛设计，聚焦于约鲁巴语。该数据集的构建基于大规模音频采集，通过众包或专业录制方式收集了约鲁巴语的自然语音样本，并同步标注了对应的文本转录。每个样本均包含音频波形、用户标识、语言标签、文本标识及原始文本，同时集成了多项声学特征，如持续时间、原始采样率、静音比例、信噪比、语速和音量分贝值，确保了数据的多维丰富性。数据以流式分片形式组织，涵盖训练集、开发集及多个部分子集，总规模超过45GB，为模型训练提供了坚实的语音-文本对齐基础。

特点

该数据集在低资源语言处理中展现出显著特色。其核心特征在于全面覆盖了约鲁巴语的语音与文本信息，音频数据以浮点数组存储，支持高保真声学分析。数据集不仅提供了基本的语音转录文本，还集成了精细的声学元数据，如静音比例、信噪比和语速等，这些特征有助于提升语音识别系统的鲁棒性。数据划分细致，包含开发集和多个训练子集，便于进行交叉验证与模型调优。此外，数据集专为流式处理优化，当前需启用流式读取模式以确保兼容性，这为大规模分布式训练提供了便利。其多任务设计同时支持自动语音识别和语音到文本翻译任务，尤其适用于约鲁巴语至英语的跨语言应用。

使用方法

在应用层面，该数据集主要服务于语音技术的前沿研究。使用者可通过HuggingFace数据集库加载，需注意将流式参数设置为True以正确读取分片数据。数据集适用于训练和评估约鲁巴语自动语音识别模型，通过音频与文本字段的配对，可构建端到端的声学模型。对于语音翻译任务，可结合配套的英语数据集，实现约鲁巴语到英语的语音到文本翻译流水线。开发集可用于模型验证，而多个训练子集支持灵活的训练策略，如增量学习或分布式训练。声学元数据可用于数据筛选或增强，例如基于信噪比过滤低质量样本，从而提升模型性能。整体而言，该数据集为低资源语言处理提供了标准化、多功能的实验平台。

背景与挑战

背景概述

iwslt_26_yor数据集是专为2026年国际口语翻译研讨会（IWSLT）挑战赛设计的约鲁巴语语音资源。该数据集由IWSLT组织者及相关研究机构共同构建，旨在推动低资源语言在自动语音识别和语音到文本翻译领域的发展。其核心研究问题聚焦于解决约鲁巴语这类资源匮乏语言在语音处理任务中的数据稀缺性，通过提供高质量的语音-文本对齐语料，为跨语言语音技术的研究与应用奠定基础。该数据集的创建不仅丰富了多语言语音资源的多样性，也为提升语音模型在非主流语言上的性能提供了关键支持，对促进全球语言技术的包容性发展具有重要影响力。

当前挑战

iwslt_26_yor数据集所解决的领域挑战在于低资源语言的自动语音识别与语音到文本翻译任务。约鲁巴语作为资源稀缺语言，面临语音数据收集困难、标注成本高昂以及方言变体复杂等问题，导致传统语音模型在该语言上表现不佳。在构建过程中，挑战包括确保语音数据的音质一致性、处理背景噪声与说话人多样性，以及实现语音与文本的精确对齐。此外，数据集的流式读取功能目前仅支持特定设置，技术实现上的限制也为实际应用带来了操作复杂性。这些挑战共同凸显了低资源语言语音数据集构建的艰巨性与必要性。

常用场景

经典使用场景

在低资源语言语音处理领域，iwslt_26_yor数据集为约鲁巴语自动语音识别和语音到文本翻译任务提供了关键支持。该数据集包含音频、文本及丰富的声学特征，常用于训练端到端的语音识别模型，尤其适用于跨语言语音翻译研究，为国际口语翻译研讨会（IWSLT）挑战赛提供了标准化的评测基准。

实际应用

在实际应用中，iwslt_26_yor数据集可赋能面向西非地区的智能语音助手、实时翻译工具及教育技术平台。其高精度的语音标注有助于开发适应方言变体的语音接口，提升医疗、金融等场景中约鲁巴语用户的信息可及性，推动数字化服务在多元语言环境中的普及。

衍生相关工作

基于该数据集衍生的经典研究包括跨语言语音表示学习框架、低资源端到端语音翻译系统等。例如，IWSLT竞赛中涌现的混合注意力模型、多任务学习架构均以其为基准，相关成果进一步拓展至非洲语言语音技术生态，催生了更多语种协同训练范式的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集