MAVD

Name: MAVD
Creator: 天津大学智能与计算学部
Published: 2023-06-04 13:00:12
License: 暂无描述

arXiv2023-06-04 更新2024-06-21 收录

下载链接：

https://github.com/SpringHuo/MAVD

下载链接

链接失效反馈

官方服务：

资源简介：

MAVD是由天津大学智能与计算学部创建的大型普通话视听数据集，包含12,484条由64位母语为汉语的说话者录制的语句。数据集不仅包含传统的音频信号和RGB图像，还特别捕捉了深度信息，使用微软的Azure Kinect设备进行数据采集。MAVD旨在覆盖多样化的现实场景，通过自动化的文本清洗和过滤流程确保数据质量。该数据集适用于音频-视觉语音识别研究，特别是解决在噪声环境下的语音识别问题，为普通话视听语音识别领域提供了重要的资源。

MAVD is a large-scale Mandarin audio-visual dataset developed by the College of Intelligence and Computing, Tianjin University. It contains 12,484 utterances recorded by 64 native Mandarin speakers. Beyond traditional audio signals and RGB images, the dataset specially captures depth information, with data collected using Microsoft Azure Kinect devices. MAVD aims to cover diverse real-world scenarios and ensures data quality through automated text cleaning and filtering workflows. This dataset is applicable to audio-visual speech recognition research, particularly for addressing speech recognition tasks in noisy environments, and serves as a critical resource for the field of Mandarin audio-visual speech recognition.

提供机构：

天津大学智能与计算学部

创建时间：

2023-06-04

搜集汇总

数据集介绍

构建方式

在构建MAVD数据集的过程中，研究团队采用了一套严谨的文本获取与筛选流程。首先，从微博、人民日报等广泛流通的社交媒体和新闻平台收集原始文本，确保内容贴近日常生活并覆盖多领域话题。随后，通过自动化管道进行数据清洗，包括基于标点符号的句子分割、特殊符号过滤以及数字转换，并利用算法对句子进行评分排序，以优化音素、声调组合的覆盖度。最终，经过人工筛选移除不道德或敏感语句，形成平衡的阅读材料。数据采集环节，团队运用微软Azure Kinect设备在专业隔音录音室中同步捕获音频、RGB图像及深度图像，确保了多模态数据的高质量与同步性。

特点

MAVD数据集作为首个开放的大规模普通话视听数据集，其显著特点在于首次引入了深度信息，为视听语音识别研究提供了三维视觉特征。该数据集包含64名来自中国24个省份的母语者录制的12,484条语句，覆盖了广泛的方言区域，增强了模型的泛化能力。数据内容源自社交媒体、新闻、书籍等多源文本，经过精心筛选，确保了语句的多样性与实用性。此外，数据集提供了详细的说话者信息（如性别、年龄、籍贯）以及音素级标注，包括拼音序列、声调组合等，为多层次研究需求奠定了坚实基础。

使用方法

MAVD数据集适用于普通话视听语音识别任务，用户可通过其提供的多模态数据进行模型训练与评估。在使用时，首先需对音频信号进行重采样至16kHz，并提取视觉特征，如利用预训练的面部标志检测模型裁剪唇部区域作为感兴趣区域。深度图像与RGB图像可统一缩放至64×64像素，以适配常见神经网络输入。数据集已按8:1:1的比例随机划分为训练、验证和测试集，并确保性别平衡，便于直接用于实验。研究人员可结合音频、RGB图像及深度图像特征，构建多模态融合模型，例如基于Wav2Vec 2.0和ResNet-18的基线架构，以探索深度信息在提升识别精度方面的作用。

背景与挑战

背景概述

在人工智能与人机交互领域，视听语音识别技术通过融合音频与视觉信息，显著提升了嘈杂环境下的语音理解能力。然而，针对汉语的视听数据集长期以来存在规模有限、缺乏深度信息等不足。为此，天津大学与香港科技大学（广州）的研究团队于2023年联合发布了MAVD数据集，作为首个开放的大规模汉语视听数据集，其创新性地引入了深度信息。该数据集包含64名母语者录制的12,484条语句，覆盖社交、新闻、文学等多领域文本，并采用微软Azure Kinect设备同步采集音频、RGB图像与深度图像。MAVD的建立不仅填补了汉语多模态数据资源的空白，也为提升复杂场景下的语音识别鲁棒性提供了关键支撑。

当前挑战

MAVD数据集致力于解决汉语视听语音识别中的核心挑战：一是在噪声环境下单一音频模态识别性能受限的问题，通过引入视觉与深度信息以增强模型抗干扰能力；二是传统汉语数据集中文本内容单一、缺乏日常化表达，MAVD通过自动化流水线从社交媒体等多源文本中筛选，并辅以人工审核，确保语料多样性与适用性。在构建过程中，团队面临深度信息采集与多模态数据对齐的技术难题，需利用Azure Kinect实现高精度同步，并通过强制对齐工具确保音素级标注的准确性。此外，数据规模的扩展与说话人地域分布的平衡也对资源协调提出了较高要求。

常用场景

经典使用场景

在音频-视觉语音识别领域，MAVD数据集作为首个包含深度信息的大规模普通话多模态语料库，其经典使用场景聚焦于提升噪声环境下的语音识别性能。通过整合音频、RGB图像与深度图像，该数据集为研究者提供了丰富的多模态特征，支持开发鲁棒的AVSR模型，尤其在模拟真实室内对话场景中，能够有效利用视觉线索补偿音频信号的缺失或失真。

衍生相关工作

基于MAVD数据集，衍生了一系列经典研究工作，主要集中在多模态特征融合与深度信息利用方面。例如，研究者结合Wav2Vec 2.0与ResNet-18架构，探索了音频与深度视觉特征的协同优化；后续工作进一步扩展了多视角采集与跨模态对齐方法，推动了普通话AVSR模型在噪声鲁棒性与实时处理性能上的提升，为相关领域设立了新的基准。

数据集最近研究