espnet/yodas-granary

Name: espnet/yodas-granary
Creator: espnet
Published: 2025-08-08 15:48:18
License: 暂无描述

Hugging Face2025-08-08 更新2025-07-05 收录

下载链接：

https://hf-mirror.com/datasets/espnet/yodas-granary

下载链接

链接失效反馈

官方服务：

资源简介：

YODAS-Granary是一个高质量伪标记语音数据集，专注于自动语音识别（ASR）和自动语音翻译（AST）任务，涵盖了23种欧洲语言。数据集由NVIDIA/Granary数据集的子集组成，并提供两种任务的核心数据：ASR和AST。ASR数据包含23种欧洲语言的伪标记转录，而AST数据包含22种非英语语言的英语高质量翻译。数据集使用Systran/faster-whisper-large-v3模型进行转录，并使用Qwen/Qwen2.5-7B-Instruct模型进行翻译。

YODAS-Granary is a curated subset of the larger `nvidia/Granary` dataset, focusing on high-quality pseudo-labeled speech data for Automatic Speech Recognition (ASR) and Automatic Speech Translation (AST) across 23 European languages. The dataset is derived from the `espnet/yodas2` corpus and provides high-quality pseudo-labeled speech data. The ASR data covers 23 European languages with pseudo-labeled transcriptions generated using the `Systran/faster-whisper-large-v3` model and post-processed to restore punctuation and capitalization using `Qwen/Qwen2.5-7B-Instruct`. The AST data covers 22 non-English languages and consists of high-quality translations into English generated from the ASR subset using the `utter-project/EuroLLM-9B-Instruct` model.

提供机构：

espnet

搜集汇总

数据集介绍

构建方式

在语音处理领域，构建高质量的多语言数据集是推动自动语音识别与翻译技术发展的关键。YODAS-Granary数据集通过系统化流程构建：首先从espnet/yodas2语料库中提取原始音频，利用Systran/faster-whisper-large-v3模型生成伪标注转录文本，再借助Qwen/Qwen2.5-7B-Instruct模型恢复标点与大小写格式，最后通过质量过滤机制筛选出可靠样本。对于语音翻译任务，则基于自动语音识别子集，采用utter-project/EuroLLM-9B-Instruct模型生成英文译文，并实施严格的质量控制，形成覆盖23种欧洲语言的结构化平行语料。

使用方法

在语音技术研究与应用中，该数据集可通过标准化流程便捷调用。用户可通过HuggingFace数据集库加载，按语言配置选择特定子集，并依据任务需求选取asr_only或ast数据分割。数据以Parquet格式存储，支持流式读取以处理大规模音频文件。典型使用场景包括：加载特定语言的自动语音识别样本用于语音转文本模型训练，或调用语音翻译平行数据构建端到端翻译系统。研究人员还可通过原始音频标识符与偏移量字段追溯数据来源，进行细致的分析与评估。

背景与挑战

背景概述

在语音技术领域，多语言自动语音识别与翻译的研究长期受限于高质量、大规模并行数据的稀缺。由NVIDIA与ESPnet团队于2024年发布的YODAS-Granary数据集，正是为了应对这一核心研究问题而构建。该数据集源自更广泛的Granary语料库，聚焦于23种欧洲语言，通过先进的伪标签生成与后处理技术，提供了包含语音、转录文本及英语译文的高质量对齐数据。其创建标志着多语言语音处理从依赖有限监督数据向利用大规模弱监督数据的范式转变，显著推动了低资源语言语音模型的研究与应用。

当前挑战

该数据集旨在解决多语言自动语音识别与翻译中数据稀缺与质量不均的领域挑战，尤其针对低资源语言。构建过程中的主要挑战包括：首先，从海量原始音频中生成高精度伪标签，需克服不同语言语音特性与背景噪声的干扰；其次，确保跨语言翻译质量的一致性，涉及复杂的数据清洗与模型过滤流程；再者，协调多达23种语言的数据分布与规模，维持数据集的平衡性与代表性亦是一项艰巨任务。这些挑战共同构成了构建大规模、高质量多语言语音数据集的核心难点。

常用场景

经典使用场景

在语音技术领域，多语言语音识别与翻译模型的训练常面临高质量标注数据稀缺的挑战。YODAS-Granary数据集通过整合23种欧洲语言的音频、转录文本及英语译文，为研究者提供了一个经典的大规模多任务基准。该数据集最典型的应用场景是作为端到端语音识别与语音翻译模型的训练与评估资源，其精心设计的asr_only与ast划分，使得模型能够同时在单语转录和跨语言翻译任务上进行学习与优化，有效支撑了多语言语音处理系统的统一建模研究。

解决学术问题

该数据集主要解决了多语言语音处理中数据不平衡与标注质量参差不齐的学术难题。通过采用先进的伪标签生成与后处理流程，它提供了大规模、高质量的多语言语音-文本对齐数据，显著缓解了低资源语言研究中的数据匮乏问题。其意义在于为跨语言语音表征学习、零样本语音翻译以及多任务联合训练等前沿方向提供了可靠的实验基础，推动了语音处理模型从单一语言向通用多语言系统的范式转变，对构建包容性人工智能技术具有深远影响。

实际应用

在实际应用层面，YODAS-Granary数据集能够直接服务于多语言智能语音助手、实时语音翻译系统以及跨语言媒体内容检索等场景。例如，基于该数据集训练的模型可部署于国际会议、在线教育平台或跨国客户服务中心，实现高准确率的实时语音转写与翻译，打破语言沟通障碍。其覆盖的多种欧洲语言也特别适用于区域化数字服务，如欧盟范围内的公共服务自动化、多语言广播监测等，为构建泛欧语音技术基础设施提供了关键数据支撑。

数据集最近研究