MuAViC

github2023-09-12 更新2024-05-31 收录

下载链接：

https://github.com/facebookresearch/muavic

下载链接

链接失效反馈

官方服务：

资源简介：

MuAViC是一个多语言音视频语料库，提供1200小时的转录音视频语音数据，涵盖9种语言（英语、阿拉伯语、德语、希腊语、西班牙语、法语、意大利语、葡萄牙语和俄语），并包括6种英语到其他语言和6种其他语言到英语的文本翻译。数据来源于TED/TEDx演讲录音。

MuAViC is a multilingual audio-visual corpus that provides 1,200 hours of transcribed audio-visual speech data, covering nine languages (English, Arabic, German, Greek, Spanish, French, Italian, Portuguese, and Russian). It includes text translations for six language pairs from English to other languages and six from other languages to English. The data is sourced from TED/TEDx talk recordings.

创建时间：

2023-02-23

原始信息汇总

数据集概述

名称: MuAViC

描述: MuAViC是一个多语言音视频语料库，旨在支持鲁棒的语音识别和语音到文本的翻译。该数据集包含以下内容：

音视频语音数据: 1200小时，涵盖9种语言（英语、阿拉伯语、德语、希腊语、西班牙语、法语、意大利语、葡萄牙语和俄语）。
文本翻译: 提供6种英语到其他语言（希腊语、西班牙语、法语、意大利语、葡萄牙语、俄语）的翻译方向和6种其他语言到英语的翻译方向。

数据统计

音视频语音识别

语言	代码	训练小时数 (H+P)	训练说话人数
英语	En	436 + 0	4.7K
阿拉伯语	Ar	16 + 0	95
德语	De	10 + 0	53
希腊语	El	25 + 0	113
西班牙语	Es	178 + 0	987
法语	Fr	176 + 0	948
意大利语	It	101 + 0	487
葡萄牙语	Pt	153 + 0	810
俄语	Ru	49 + 0	238

音视频英语到X的语音到文本翻译

方向	代码	训练小时数 (H+P)	训练说话人数
英语-希腊语	En-El	17 + 420	4.7K
英语-西班牙语	En-Es	21 + 416	4.7K
英语-法语	En-Fr	21 + 416	4.7K
英语-意大利语	En-It	20 + 417	4.7K
英语-葡萄牙语	En-Pt	18 + 419	4.7K
英语-俄语	En-Ru	20 + 417	4.7K

音视频X到英语的语音到文本翻译

方向	代码	训练小时数 (H+P)	训练说话人数
希腊语-英语	El-En	8 + 17	113
西班牙语-英语	Es-En	64 + 114	987
法语-英语	Fr-En	45 + 131	948
意大利语-英语	It-En	48 + 53	487
葡萄牙语-英语	Pt-En	53 + 100	810
俄语-英语	Ru-En	8 + 41	238

模型

音视频语音识别（AVSR）

语言	最佳检查点	字典	分词器
阿拉伯语	best_ckpt.pt	dict	tokenizer
德语	best_ckpt.pt	dict	tokenizer
希腊语	best_ckpt.pt	dict	tokenizer
英语	best_ckpt.pt	dict	tokenizer
西班牙语	best_ckpt.pt	dict	tokenizer
法语	best_ckpt.pt	dict	tokenizer
意大利语	best_ckpt.pt	dict	tokenizer
葡萄牙语	best_ckpt.pt	dict	tokenizer
俄语	best_ckpt.pt	dict	tokenizer

音视频语音到文本翻译（AVST）

方向	最佳检查点	字典	分词器
英语-希腊语	best_ckpt.pt	dict	tokenizer
英语-西班牙语	best_ckpt.pt	dict	tokenizer
英语-法语	best_ckpt.pt	dict	tokenizer
英语-意大利语	best_ckpt.pt	dict	tokenizer
英语-葡萄牙语	best_ckpt.pt	dict	tokenizer
英语-俄语	best_ckpt.pt	dict	tokenizer
希腊语-英语	best_ckpt.pt	dict	tokenizer
西班牙语-英语	best_ckpt.pt	dict	tokenizer
法语-英语	best_ckpt.pt	dict	tokenizer
意大利语-英语	best_ckpt.pt	dict	tokenizer
葡萄牙语-英语	best_ckpt.pt	dict	tokenizer
俄语-英语	best_ckpt.pt	dict	tokenizer

许可证

类型: CC-BY-NC 4.0

搜集汇总

数据集介绍

构建方式

MuAViC数据集的构建基于TED/TEDx演讲的录音，涵盖了9种语言的1200小时音频-视觉语音数据。这些数据经过转录处理，并提供了6种英语到其他语言的翻译方向及其反向翻译。数据集的构建过程包括从原始视频中提取音频和视频数据，并生成用于AV-HuBERT训练的清单文件。通过这种方式，MuAViC为多语言语音识别和语音到文本翻译任务提供了丰富的资源。

特点

MuAViC数据集的特点在于其多语言性和多模态性。它不仅涵盖了英语、阿拉伯语、德语、希腊语、西班牙语、法语、意大利语、葡萄牙语和俄语等9种语言，还提供了音频和视频的双模态数据。此外，数据集还包含了大量的文本翻译数据，支持12种翻译方向。这些特点使得MuAViC在语音识别和翻译任务中具有广泛的应用潜力，尤其是在多语言和多模态场景下。

使用方法

使用MuAViC数据集时，首先需要克隆GitHub仓库并安装所需的依赖包。通过运行提供的脚本，用户可以生成音频和视频数据，并获取用于AV-HuBERT训练的清单文件。数据集的使用方法包括下载预训练模型、配置训练脚本并运行训练过程。此外，用户还可以通过解码脚本来评估模型的性能。MuAViC数据集的使用流程清晰，适合用于多语言语音识别和翻译任务的研究与开发。

背景与挑战

背景概述

MuAViC数据集由Facebook Research团队于2023年发布，旨在为多语言音频-视觉语音识别（AVSR）和语音到文本翻译（AVST）提供高质量的数据支持。该数据集包含9种语言的1200小时转录音频-视觉数据，涵盖了英语、阿拉伯语、德语、希腊语、西班牙语、法语、意大利语、葡萄牙语和俄语。数据主要来源于TED/TEDx演讲视频，具有广泛的语言多样性和丰富的语音内容。MuAViC的发布为多模态语音处理领域的研究提供了重要的数据基础，推动了多语言语音识别和翻译技术的发展。

当前挑战

MuAViC数据集在构建和应用过程中面临多重挑战。首先，多语言数据的收集与标注需要克服语言多样性和文化差异带来的复杂性，尤其是在低资源语言（如阿拉伯语和希腊语）上，数据量相对较少，可能导致模型在这些语言上的表现不佳。其次，音频-视觉数据的同步处理要求高精度的对齐技术，以确保音频和视频信息的一致性。此外，多模态数据的融合与建模也是一个技术难点，如何在音频和视觉信息之间找到最佳的结合方式，以提升语音识别和翻译的准确性，仍然是当前研究的核心挑战之一。

常用场景

经典使用场景

MuAViC数据集在语音识别和语音翻译领域具有广泛的应用。其多语言音频-视觉语料库为研究者提供了丰富的资源，特别是在多模态语音识别（AVSR）和语音到文本翻译（AVST）任务中。通过结合音频和视觉信息，该数据集能够有效提升模型在嘈杂环境下的识别和翻译性能，成为多模态语音处理研究的基准数据集之一。

衍生相关工作

MuAViC数据集的发布催生了一系列相关研究工作，特别是在多模态语音处理和跨语言翻译领域。基于该数据集，研究者开发了多种先进的模型架构，如AV-HuBERT等，进一步推动了多模态融合技术的发展。此外，该数据集还促进了多语言语音识别和翻译基准的建立，为后续研究提供了重要的参考和对比标准。

数据集最近研究