SpeechMatrix
收藏arXiv2022-11-09 更新2024-06-21 收录
下载链接:
https://github.com/facebookresearch/fairseq/tree/ust/examples/speech_matrix
下载链接
链接失效反馈官方服务:
资源简介:
SpeechMatrix是由Meta AI Research和Inria共同创建的大型多语种语音到语音翻译语料库,源自欧洲议会的真实录音。该数据集包含136种语言对的语音对齐,总时长达到41.8万小时。它支持多语种语音到语音翻译研究,通过训练基于挖掘数据的模型,在Europarl-ST、VoxPopuli和FLEURS测试集上建立了广泛的基准结果。此外,数据集的模型预训练和稀疏缩放使用专家混合方法显著提升了翻译性能。该数据集及其模型均免费提供,旨在解决多语种环境下的无缝通信问题。
SpeechMatrix is a large-scale multilingual speech-to-speech translation corpus co-created by Meta AI Research and Inria, derived from real recordings of the European Parliament. This dataset covers speech alignments across 136 language pairs, with a total duration of 418,000 hours. It supports multilingual speech-to-speech translation research, having established extensive benchmark results on the Europarl-ST, VoxPopuli and FLEURS test sets by training models on mined data. Additionally, the application of mixture-of-experts methods for model pre-training and sparse scaling has significantly boosted translation performance for this dataset. Both this corpus and its accompanying models are freely accessible, aiming to solve the problem of seamless communication in multilingual environments.
提供机构:
Meta AI Research, Inria
创建时间:
2022-11-09
搜集汇总
数据集介绍

构建方式
在语音到语音翻译领域,数据稀缺是制约模型发展的关键瓶颈。SpeechMatrix的构建采用了创新的语音挖掘技术,通过训练多语言语音编码器,将17种语言的语音片段编码到共享的语义嵌入空间中。该方法基于教师-学生框架,利用预训练的LASER文本编码器作为教师模型,指导语音编码器学习将语音内容映射为固定维度的向量表示。随后,从VoxPopuli语料库的未标注语音中,通过计算嵌入向量之间的相似度得分,自动挖掘出136个语言对之间的平行语音对齐,最终形成了总计418,000小时的庞大多语言语音翻译资源。
特点
SpeechMatrix的显著特点在于其前所未有的规模和多语言覆盖广度。该数据集涵盖了17种语言之间的136个翻译方向,每个方向平均提供1,537小时的源语音数据,总时长达到418,000小时,是目前公开可用的最大规模语音到语音翻译语料库。与现有数据集相比,SpeechMatrix全部采用真实的欧洲议会演讲录音,而非合成语音,确保了数据的自然性和多样性。此外,数据集中包含了从高资源语言到低资源语言的广泛配对,为研究多语言语音翻译中的知识迁移和资源不平衡问题提供了宝贵资源。
使用方法
SpeechMatrix数据集为语音到语音翻译研究提供了丰富的训练资源。研究人员可利用该数据训练端到端的语音到语音翻译模型,特别是基于离散单元的翻译框架。典型的使用流程包括:首先利用HuBERT模型将目标语音转换为离散单元序列,然后训练语音到单元模型来预测这些单元,最后通过语音合成器将预测的单元转换回语音波形。该数据集支持双语和多语言翻译模型的训练,已成功应用于验证多语言训练、预训练技术以及稀疏缩放方法(如混合专家模型)在提升翻译性能方面的有效性。数据集附带预训练的语音编码器、多语言HuBERT模型和语音合成器,便于快速开展实验和基准测试。
背景与挑战
背景概述
SpeechMatrix数据集由Meta AI Research与Inria的研究团队于2022年共同构建,旨在应对语音到语音翻译领域长期面临的数据稀缺问题。该数据集通过创新的语音挖掘技术,从欧洲议会的真实录音中提取大规模多语言平行语音对齐,覆盖17种语言间的136个语言对,总计提供约418,000小时的语音数据。其核心研究问题聚焦于突破传统级联模型的局限,推动端到端直接语音翻译模型的发展,尤其关注无文字书写体系语言的翻译可行性。该数据集的发布显著提升了多语言语音翻译模型的训练效率与性能,为跨语言语音通信研究提供了关键基础设施。
当前挑战
SpeechMatrix所针对的语音到语音翻译任务面临双重挑战:其一,领域问题层面,直接语音翻译模型需克服语音信号连续性与语义离散化之间的固有矛盾,同时处理多语言语音在声学特征、韵律节奏及文化语境上的巨大差异;其二,构建过程中,研究团队需解决原始语音数据的有效分割与对齐难题,包括语音活动检测的精度不足、语句边界模糊以及跨语言语义匹配的复杂性。此外,数据挖掘依赖高质量的多模态句子嵌入空间,其训练需要平衡不同语言的数据分布,并确保语音编码器能够准确捕捉跨语言的语义一致性,这些技术瓶颈均增加了数据集构建的难度。
常用场景
经典使用场景
在语音到语音翻译领域,SpeechMatrix数据集被广泛用于训练和评估端到端的直接翻译模型。该数据集通过从欧洲议会录音中挖掘出大规模的多语言平行语音对齐,覆盖了17种语言之间的136个语言对,总计提供超过41.8万小时的语音数据。研究人员通常利用这些数据训练基于离散单元的语音到语音翻译模型,例如Textless模型或XM Transformer,以验证模型在跨语言语音转换中的性能。该数据集在Europarl-ST、VoxPopuli和FLEURS等标准测试集上建立了广泛的基线结果,为多语言语音翻译研究提供了可靠的实验基础。
实际应用
SpeechMatrix的实际应用主要体现在多语言实时语音翻译系统中。基于该数据集训练的模型可用于构建支持17种欧洲语言的语音翻译服务,例如在国际会议、跨境商务沟通或多语言客服场景中实现无缝语音转换。此外,该数据集衍生的技术能够支持无文字书写系统的语言翻译,拓展了语音翻译在少数民族语言或口语化交流中的应用范围。其开源特性也促进了工业界和学术界的协作,为开发高质量、可扩展的语音翻译产品提供了数据支撑和模型基准。
衍生相关工作
SpeechMatrix的发布催生了一系列相关研究工作。在模型架构方面,基于该数据集的实验推动了XM Transformer等跨模态预训练模型在语音翻译中的应用,并验证了混合专家系统(如GShard和Base Layer)在多语言场景下的有效性。同时,该数据集为语音单元离散化方法(如HuBERT生成的单元序列)提供了大规模训练基础,促进了Textless等无文本翻译模型的发展。此外,围绕数据挖掘技术,研究者进一步优化了语音编码器的训练策略和多语言嵌入空间的对齐方法,这些工作共同丰富了语音到语音翻译领域的技术生态。
以上内容由遇见数据集搜集并总结生成



