five

MuAViC

收藏
github2023-09-12 更新2024-05-31 收录
下载链接:
https://github.com/facebookresearch/muavic
下载链接
链接失效反馈
官方服务:
资源简介:
MuAViC是一个多语言音视频语料库,提供1200小时的转录音视频语音数据,涵盖9种语言(英语、阿拉伯语、德语、希腊语、西班牙语、法语、意大利语、葡萄牙语和俄语),并包括6种英语到其他语言和6种其他语言到英语的文本翻译。数据来源于TED/TEDx演讲录音。

MuAViC is a multilingual audio-visual corpus that provides 1,200 hours of transcribed audio-visual speech data, covering nine languages (English, Arabic, German, Greek, Spanish, French, Italian, Portuguese, and Russian). It includes text translations for six language pairs from English to other languages and six from other languages to English. The data is sourced from TED/TEDx talk recordings.
创建时间:
2023-02-23
原始信息汇总

数据集概述

名称: MuAViC

描述: MuAViC是一个多语言音视频语料库,旨在支持鲁棒的语音识别和语音到文本的翻译。该数据集包含以下内容:

  • 音视频语音数据: 1200小时,涵盖9种语言(英语、阿拉伯语、德语、希腊语、西班牙语、法语、意大利语、葡萄牙语和俄语)。
  • 文本翻译: 提供6种英语到其他语言(希腊语、西班牙语、法语、意大利语、葡萄牙语、俄语)的翻译方向和6种其他语言到英语的翻译方向。

数据统计

音视频语音识别

语言 代码 训练小时数 (H+P) 训练说话人数
英语 En 436 + 0 4.7K
阿拉伯语 Ar 16 + 0 95
德语 De 10 + 0 53
希腊语 El 25 + 0 113
西班牙语 Es 178 + 0 987
法语 Fr 176 + 0 948
意大利语 It 101 + 0 487
葡萄牙语 Pt 153 + 0 810
俄语 Ru 49 + 0 238

音视频英语到X的语音到文本翻译

方向 代码 训练小时数 (H+P) 训练说话人数
英语-希腊语 En-El 17 + 420 4.7K
英语-西班牙语 En-Es 21 + 416 4.7K
英语-法语 En-Fr 21 + 416 4.7K
英语-意大利语 En-It 20 + 417 4.7K
英语-葡萄牙语 En-Pt 18 + 419 4.7K
英语-俄语 En-Ru 20 + 417 4.7K

音视频X到英语的语音到文本翻译

方向 代码 训练小时数 (H+P) 训练说话人数
希腊语-英语 El-En 8 + 17 113
西班牙语-英语 Es-En 64 + 114 987
法语-英语 Fr-En 45 + 131 948
意大利语-英语 It-En 48 + 53 487
葡萄牙语-英语 Pt-En 53 + 100 810
俄语-英语 Ru-En 8 + 41 238

模型

音视频语音识别(AVSR)

语言 最佳检查点 字典 分词器
阿拉伯语 best_ckpt.pt dict tokenizer
德语 best_ckpt.pt dict tokenizer
希腊语 best_ckpt.pt dict tokenizer
英语 best_ckpt.pt dict tokenizer
西班牙语 best_ckpt.pt dict tokenizer
法语 best_ckpt.pt dict tokenizer
意大利语 best_ckpt.pt dict tokenizer
葡萄牙语 best_ckpt.pt dict tokenizer
俄语 best_ckpt.pt dict tokenizer

音视频语音到文本翻译(AVST)

方向 最佳检查点 字典 分词器
英语-希腊语 best_ckpt.pt dict tokenizer
英语-西班牙语 best_ckpt.pt dict tokenizer
英语-法语 best_ckpt.pt dict tokenizer
英语-意大利语 best_ckpt.pt dict tokenizer
英语-葡萄牙语 best_ckpt.pt dict tokenizer
英语-俄语 best_ckpt.pt dict tokenizer
希腊语-英语 best_ckpt.pt dict tokenizer
西班牙语-英语 best_ckpt.pt dict tokenizer
法语-英语 best_ckpt.pt dict tokenizer
意大利语-英语 best_ckpt.pt dict tokenizer
葡萄牙语-英语 best_ckpt.pt dict tokenizer
俄语-英语 best_ckpt.pt dict tokenizer

许可证

类型: CC-BY-NC 4.0

搜集汇总
数据集介绍
main_image_url
构建方式
MuAViC数据集的构建基于TED/TEDx演讲的录音,涵盖了9种语言的1200小时音频-视觉语音数据。这些数据经过转录处理,并提供了6种英语到其他语言的翻译方向及其反向翻译。数据集的构建过程包括从原始视频中提取音频和视频数据,并生成用于AV-HuBERT训练的清单文件。通过这种方式,MuAViC为多语言语音识别和语音到文本翻译任务提供了丰富的资源。
特点
MuAViC数据集的特点在于其多语言性和多模态性。它不仅涵盖了英语、阿拉伯语、德语、希腊语、西班牙语、法语、意大利语、葡萄牙语和俄语等9种语言,还提供了音频和视频的双模态数据。此外,数据集还包含了大量的文本翻译数据,支持12种翻译方向。这些特点使得MuAViC在语音识别和翻译任务中具有广泛的应用潜力,尤其是在多语言和多模态场景下。
使用方法
使用MuAViC数据集时,首先需要克隆GitHub仓库并安装所需的依赖包。通过运行提供的脚本,用户可以生成音频和视频数据,并获取用于AV-HuBERT训练的清单文件。数据集的使用方法包括下载预训练模型、配置训练脚本并运行训练过程。此外,用户还可以通过解码脚本来评估模型的性能。MuAViC数据集的使用流程清晰,适合用于多语言语音识别和翻译任务的研究与开发。
背景与挑战
背景概述
MuAViC数据集由Facebook Research团队于2023年发布,旨在为多语言音频-视觉语音识别(AVSR)和语音到文本翻译(AVST)提供高质量的数据支持。该数据集包含9种语言的1200小时转录音频-视觉数据,涵盖了英语、阿拉伯语、德语、希腊语、西班牙语、法语、意大利语、葡萄牙语和俄语。数据主要来源于TED/TEDx演讲视频,具有广泛的语言多样性和丰富的语音内容。MuAViC的发布为多模态语音处理领域的研究提供了重要的数据基础,推动了多语言语音识别和翻译技术的发展。
当前挑战
MuAViC数据集在构建和应用过程中面临多重挑战。首先,多语言数据的收集与标注需要克服语言多样性和文化差异带来的复杂性,尤其是在低资源语言(如阿拉伯语和希腊语)上,数据量相对较少,可能导致模型在这些语言上的表现不佳。其次,音频-视觉数据的同步处理要求高精度的对齐技术,以确保音频和视频信息的一致性。此外,多模态数据的融合与建模也是一个技术难点,如何在音频和视觉信息之间找到最佳的结合方式,以提升语音识别和翻译的准确性,仍然是当前研究的核心挑战之一。
常用场景
经典使用场景
MuAViC数据集在语音识别和语音翻译领域具有广泛的应用。其多语言音频-视觉语料库为研究者提供了丰富的资源,特别是在多模态语音识别(AVSR)和语音到文本翻译(AVST)任务中。通过结合音频和视觉信息,该数据集能够有效提升模型在嘈杂环境下的识别和翻译性能,成为多模态语音处理研究的基准数据集之一。
衍生相关工作
MuAViC数据集的发布催生了一系列相关研究工作,特别是在多模态语音处理和跨语言翻译领域。基于该数据集,研究者开发了多种先进的模型架构,如AV-HuBERT等,进一步推动了多模态融合技术的发展。此外,该数据集还促进了多语言语音识别和翻译基准的建立,为后续研究提供了重要的参考和对比标准。
数据集最近研究
最新研究方向
近年来,随着多模态学习在语音识别和翻译领域的广泛应用,MuAViC数据集因其多语言音频-视觉数据的丰富性而备受关注。该数据集涵盖了9种语言的1200小时转录数据,并提供了12种语言对的翻译任务,为多语言语音识别和语音到文本翻译的研究提供了坚实的基础。当前的研究热点集中在如何利用音频和视觉信息的互补性,提升模型在噪声环境下的鲁棒性。特别是,基于AV-HuBERT框架的多模态模型训练,已成为该领域的前沿方向。此外,随着多语言模型的兴起,MuAViC数据集在跨语言迁移学习和低资源语言处理中的应用也展现出巨大潜力,推动了语音技术在全球范围内的普及与优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作