MultiNAM

Name: MultiNAM
Creator: 印度海得拉巴国际信息技术学院CVIT, 塔塔咨询服务公司研究部浦那
Published: 2024-12-25 16:57:24
License: 暂无描述

arXiv2024-12-25 更新2024-12-31 收录

下载链接：

https://diff-nam.github.io/DiffNAM/

下载链接

链接失效反馈

官方服务：

资源简介：

MultiNAM数据集由印度海得拉巴国际信息技术学院和塔塔咨询服务公司研究部共同创建，旨在推动无声语音接口（SSI）技术的发展。该数据集包含7.96小时的配对数据，涵盖非可听低语（NAM）、耳语、面部视频和文本，数据来自两名不同性别的说话者。数据集通过蓝牙连接的数字听诊器采集NAM振动，同时记录耳语和面部视频，采样频率为48 kHz。该数据集的创建过程包括使用LJSpeech数据集中的句子，要求说话者以耳语形式朗读，并确保每位参与者贡献不同的文本。MultiNAM数据集的应用领域主要集中在无声语音转换技术，旨在解决因语音障碍或环境限制而无法正常交流的问题，特别是在医疗和安静公共空间等场景中。

The MultiNAM dataset was co-developed by the International Institute of Information Technology Hyderabad (IIIT Hyderabad) and the Research Division of Tata Consultancy Services (TCS), aiming to advance the development of Silent Speech Interface (SSI) technologies. This dataset contains 7.96 hours of paired multimodal data, covering non-audible murmurs (NAM), whispered speech, facial videos, and textual transcriptions, sourced from two speakers of different genders. NAM vibrations were collected using a Bluetooth-connected digital stethoscope, while whispered speech and facial videos were simultaneously recorded at a sampling rate of 48 kHz. The dataset creation process utilized sentences from the LJSpeech dataset, requiring speakers to read the sentences in a whispered manner, and ensuring that each participant contributed distinct textual content. The primary application areas of the MultiNAM dataset focus on silent speech conversion technologies, with the purpose of addressing communication difficulties faced by individuals unable to communicate normally due to speech impairments or environmental restrictions, particularly in scenarios such as medical settings and quiet public spaces.

提供机构：

印度海得拉巴国际信息技术学院CVIT, 塔塔咨询服务公司研究部浦那

创建时间：

2024-12-25

搜集汇总

数据集介绍

构建方式

MultiNAM数据集的构建采用了多模态数据采集方法，旨在为无声语音接口（SSI）研究提供丰富的资源。数据采集在一个典型的办公环境中进行，使用了一款市售的蓝牙数字听诊器来记录非可听耳语（NAM）振动，同时通过笔记本电脑录制了面部视频和耳语音频。两名参与者（一男一女）被要求以耳语形式朗读来自LJSpeech数据集的句子，确保了数据的多样性和广泛性。视频以1920x1080像素分辨率和25帧每秒的帧率录制，而耳语和NAM则以48kHz的采样频率记录。数据集共包含7.96小时的多模态数据，涵盖了NAM、耳语、面部视频和对应文本的配对信息。

特点

MultiNAM数据集的特点在于其多模态性和广泛的应用场景。数据集不仅包含了NAM振动和耳语音频，还提供了面部视频和对应文本，为无声语音转换研究提供了全面的输入模态。此外，数据集涵盖了不同性别和年龄的参与者，确保了数据的多样性和泛化能力。数据集的构建还特别考虑了资源有限的情况，通过引入视觉模态（如唇部视频）来减少对耳语数据的依赖，进一步扩展了其应用范围。MultiNAM数据集为无声语音转换、唇语识别以及多模态语音合成等领域的研究提供了宝贵的资源。

使用方法

MultiNAM数据集的使用方法主要围绕无声语音转换和多模态语音合成展开。研究者可以利用数据集中的NAM振动、耳语音频、面部视频和文本信息，训练和评估不同的语音转换模型。例如，可以通过学习NAM与文本之间的音素对齐关系，结合文本到语音（TTS）系统生成模拟的真实语音。此外，数据集中的面部视频可以用于唇语识别和唇到语音合成任务，进一步减少对耳语数据的依赖。数据集还支持在资源有限的情况下进行实验，通过引入视觉模态来提升语音合成的质量。MultiNAM数据集为无声语音接口的研究提供了多方面的实验平台，推动了该领域的技术进步。

背景与挑战

背景概述

MultiNAM数据集由Neil Shah、Shirish Karande和Vineet Gandhi等人于2024年提出，旨在推动非可听低语（Non-Audible Murmur, NAM）到语音转换技术的研究。该数据集包含7.96小时的配对数据，涵盖NAM、低语、视频和文本，来自两名不同性别的说话者。MultiNAM的发布旨在解决现有NAM-to-speech技术在语音可懂度和跨说话者泛化能力上的不足。通过引入唇部模态和基于扩散模型的新方法，该数据集为无声语音接口（Silent Speech Interfaces, SSIs）领域提供了重要的研究资源，尤其适用于失语患者或在需要安静环境的场景中。

当前挑战

MultiNAM数据集面临的挑战主要体现在两个方面。首先，NAM-to-speech转换的核心问题在于如何从缺乏可懂度的NAM信号中生成高质量的语音。现有方法依赖于低语数据，但其泛化能力有限，尤其是在不同说话者之间表现不佳。其次，数据集的构建过程中，获取高质量的配对NAM和语音数据具有挑战性，尤其是在资源有限的情况下，数据对齐和噪声问题显著影响了模型的训练效果。此外，如何有效利用多模态数据（如视频和文本）来提升语音生成的质量，也是当前研究中的一大难点。

常用场景

经典使用场景

MultiNAM数据集在无声语音接口（SSI）领域中被广泛应用于NAM-to-Speech转换任务。通过提供配对的NAM、耳语、视频和文本数据，该数据集为研究人员提供了一个多模态的实验平台，用于探索从无声信号到语音的转换技术。特别是在资源受限的场景下，MultiNAM数据集能够帮助验证不同输入模态（如仅NAM、仅视频等）对语音生成效果的影响。

解决学术问题

MultiNAM数据集解决了NAM-to-Speech转换中的关键学术问题，如语音生成的清晰度和跨说话者的泛化能力。传统方法依赖于配对的耳语数据，而MultiNAM通过引入视频模态和扩散模型，减少了对耳语数据的依赖，显著提升了语音生成的准确性和自然度。此外，该数据集还为研究多模态对齐和跨模态学习提供了丰富的实验数据，推动了无声语音接口技术的发展。

衍生相关工作

MultiNAM数据集催生了一系列相关研究，特别是在多模态语音生成领域。基于该数据集，研究人员提出了多种创新方法，如基于扩散模型的NAM-to-Speech生成技术、跨模态对齐算法以及结合视频和NAM信号的语音合成方法。这些工作不仅提升了语音生成的质量，还为无声语音接口技术的进一步发展提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集