Granary
收藏arXiv2025-05-20 更新2025-05-21 收录
下载链接:
https://hf.co/datasets/nvidia/Granary
下载链接
链接失效反馈官方服务:
资源简介:
Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。
Granary is a large-scale speech recognition and translation dataset covering 25 European languages, jointly created by multiple institutions including NVIDIA. This dataset is generated using pseudo-labeling techniques, aiming to address speech processing challenges for low-resource languages. It contains approximately 643,237.57 hours of speech data, which has been carefully screened and processed to improve data quality and reduce internal errors. This dataset can be applied to research in fields such as Automatic Speech Recognition (ASR) and Automatic Speech Translation (AST), and helps enhance the accuracy and robustness of speech models for low-resource languages.
提供机构:
NVIDIA, USA; NVIDIA, Armenia; NVIDIA, Germany; Carnegie Mellon University, USA; Fondazione Bruno Kessler (FBK), Italy
创建时间:
2025-05-20
搜集汇总
数据集介绍

构建方式
Granary数据集的构建采用了先进的伪标注技术,通过多阶段处理流程确保数据质量。首先,利用Whisper-large-v3模型进行两阶段推理,包括语言识别和转录,结合Silero VAD技术有效减少语音截断和幻觉现象。随后,通过语言ID验证、鲁棒数据过滤以及基于Qwen 2.5-7B-Instruct模型的标点与大小写恢复,进一步提升标注准确性。在翻译任务方面,采用EuroLLM 9B模型生成翻译对,并通过质量估计过滤确保数据可靠性。整个流程高效且可扩展,能够在数小时内处理大规模数据。
特点
Granary数据集覆盖25种欧洲语言,包含643k小时的高质量伪标注语音数据,是首个同时支持语音识别和翻译的大规模开源数据集。其突出特点在于通过严格的过滤流程显著提升了数据质量,实验表明使用50%的数据量即可达到与现有数据集相当甚至更优的模型性能。数据集特别关注低资源语言,通过创新的伪标注技术弥补了人工标注数据的不足,为多语言语音研究提供了宝贵资源。数据分布呈现明显的语言差异性,英语数据量最大(275k小时),乌克兰语最少(不足1k小时),反映了实际语言资源的分布状况。
使用方法
该数据集适用于语音识别和翻译任务的模型训练与评估。研究人员可直接下载预处理后的FLAC/WAV格式音频及对应文本标注,利用提供的元数据进行针对性数据筛选。对于ASR任务,建议结合标点恢复后的文本进行训练;AST任务则可直接使用生成的翻译对。数据集已与NeMo等主流框架兼容,支持高效的大规模分布式训练。评估时推荐采用FLEURS、VoxPopuli等标准测试集,同时注意区分带标点与无标点的评估场景。为充分发挥数据效能,建议参考论文中的过滤策略对训练数据进行二次优化。
背景与挑战
背景概述
Granary数据集由NVIDIA等机构的研究团队于2025年推出,旨在解决欧洲低资源语言在语音识别与翻译领域的数据稀缺问题。作为首个覆盖25种欧洲语言的大规模开源语音数据集,其创新性地整合了YODAS、YouTube-Commons和MOSEL三大开放语料库,通过伪标注技术生成643k小时的高质量数据。该数据集突破了传统语音数据依赖人工标注的局限,采用两阶段推理、语言ID验证及大语言模型辅助的标点恢复等先进技术,显著提升了语音基础模型在多语言场景下的泛化能力,为欧盟语言技术生态的均衡发展提供了关键基础设施。
当前挑战
构建Granary面临双重挑战:在领域层面,需解决低资源语言因数据稀疏导致的模型性能下降问题,特别是乌克兰语等语种可用时长不足千小时;在技术层面,原始语料的噪声过滤尤为关键——YouTube字幕存在20%的保加利亚语数据因语言识别错误被丢弃,Whisper模型对非语音段敏感易产生幻觉文本,且30秒固定分段机制导致语义截断。此外,跨25种语言的翻译对生成需平衡EuroLLM模型效率与质量,其9B参数版本虽表现优异但面临商用许可限制,数据合成过程中仍需应对1.7%的持续性幻觉样本。
常用场景
经典使用场景
Granary数据集作为首个覆盖25种欧洲语言的大规模开源语音识别与翻译数据集,其经典应用场景集中在跨语言语音处理模型的训练与评估。该数据集通过整合YODAS、YouTube-Commons和MOSEL三大开放语料库,为研究者提供了包含64.3万小时高质量伪标注数据的多语言实验平台,特别适用于低资源语言的语音技术开发。其独特的双通道推理流程和基于EuroLLM的翻译对生成机制,使得该数据集成为测试语音模型跨语言迁移能力的基准工具。
实际应用
在实际应用层面,Granary支撑了多语言智能助手、实时会议转录系统等商业产品的开发。其包含的23种欧盟官方语言及乌克兰语、俄语资源,特别适用于欧洲跨境服务场景。例如,基于该数据集训练的模型已应用于欧盟机构的跨语言会议系统,实现从立陶宛语到英语的实时语音翻译。数据集提供的351,048小时X→En翻译对,显著提升了语音翻译系统在医疗、法律等专业领域的术语准确性。
衍生相关工作
该数据集催生了多个重要研究方向,包括:1) 基于Whisper-large-v3的改进型伪标注框架,如MOSEL团队后续开发的语音分段优化算法;2) 欧洲议会支持的EuroLLM项目扩展了9B参数翻译模型的语种覆盖;3) NVIDIA团队提出的混合RNNT-CTC解码架构在NeMo框架中的实现。这些衍生工作共同推动了《IEEE SLT 2024》等顶会关于长序列语音处理的理论突破。
以上内容由遇见数据集搜集并总结生成



