yodas-granary

Name: yodas-granary
Creator: ESPnet
Published: 2025-06-12 05:43:36
License: 暂无描述

Hugging Face2025-06-12 更新2025-06-14 收录

下载链接：

https://huggingface.co/datasets/espnet/yodas-granary

下载链接

链接失效反馈

官方服务：

资源简介：

YODAS-Granary是一个由更大的NVIDIA/Granary数据集精心挑选的子集，专注于高质量的伪标签语音数据，用于自动语音识别（ASR）和自动语音翻译（AST）跨23种欧洲语言。数据集包括特征，如utterance ID，音频采样率为16000 Hz，持续时间，语言，任务，文本，英文翻译，原始音频ID和原始音频偏移。数据集分为ASR-only和AST子集，数据分布在各种语言中。数据集在CC BY 3.0许可下可用，并通过NeMo语音数据处理器存储库访问。

YODAS-Granary is a carefully curated subset derived from the larger NVIDIA/Granary dataset, focusing on high-quality pseudo-labeled speech data for automatic speech recognition (ASR) and automatic speech translation (AST) across 23 European languages. The dataset includes attributes such as utterance ID, audio sampling rate of 16000 Hz, duration, language, task, transcript, English translation, original audio ID, and original audio offset. It is divided into ASR-only and AST subsets, with data distributed across various languages. The dataset is available under the CC BY 3.0 license and can be accessed via the NeMo Speech Data Processor repository.

提供机构：

ESPnet

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

在语音识别与机器翻译领域，多语言数据集的构建对模型泛化能力至关重要。YODAS-Granary数据集通过系统化流程构建：首先采用Systran/faster-whisper-large-v3模型生成23种欧洲语言的伪标注语音转写文本，随后利用Qwen/Qwen2.5-7B-Instruct模型进行标点恢复与大小写规范化处理，最后通过质量过滤机制确保数据可靠性。对于语音翻译任务，基于ASR子集使用utter-project/EuroLLM-9B-Instruct模型生成高质量英文翻译，形成22种非英语语言至英语的平行语料。

使用方法

研究者可通过HuggingFace数据集库以标准方式加载特定语言配置，支持流式读取以处理海量音频数据。典型应用场景包括多语言语音识别模型训练，通过加载asr_only分割获取语音-文本对齐数据；跨语言语音翻译研究则可联合使用ast分割的音频-原文-译文三元组。技术实现上，数据集采用parquet格式存储，支持按语言代码过滤（如'bg'对应保加利亚语），且提供全局'all'配置实现全语言统一访问。

背景与挑战

背景概述

在语音识别与机器翻译技术快速发展的背景下，YODAS-Granary数据集由NVIDIA与ESPnet团队于2024年联合构建，旨在解决多语言自动语音识别（ASR）和自动语音翻译（AST）任务中高质量训练数据稀缺的问题。该数据集涵盖23种欧洲语言，通过先进的伪标签生成与后处理技术，显著提升了跨语言语音处理模型的性能，对推动多模态人工智能研究具有重要价值。

当前挑战

该数据集需应对多语言语音识别中方言变异性和低资源语言数据稀疏的挑战，同时需解决语音转文本与跨语言翻译的双重任务复杂性。构建过程中面临音频质量不一致、伪标签生成可靠性验证，以及大规模多语言数据对齐与清洗的技术难题，需通过多模型协作与严格质量控制机制确保数据可用性。

常用场景

经典使用场景

在多语言语音处理研究领域，YODAS-Granary数据集被广泛应用于自动语音识别和语音翻译系统的训练与评估。该数据集覆盖23种欧洲语言的高质量伪标注语音数据，为构建跨语言语音处理模型提供了丰富的训练素材。研究者通过该数据集能够系统性地比较不同语言间语音特征的差异，并开发出更具泛化能力的多语言语音处理系统。

解决学术问题

该数据集有效解决了多语言语音处理研究中数据稀缺和质量不均的学术难题。通过提供统一标准的伪标注语音数据，研究者能够系统分析不同语言语音识别的共性特征与个性差异，推动跨语言语音表示学习的发展。其高质量的翻译标注还为语音翻译任务的端到端建模提供了可靠的数据支撑，显著提升了低资源语言语音处理的研究水平。

实际应用

在实际应用层面，YODAS-Granary数据集为多语言语音助手和实时翻译系统的开发提供了关键数据支持。科技公司利用该数据集训练的多语言语音识别模型，能够更好地服务于欧洲多语言市场的用户需求。教育机构也借助该数据集开发语言学习工具，帮助学习者通过语音交互提升语言能力，推动语言教育的智能化发展。

数据集最近研究