AISHELL6-Whisper

Name: AISHELL6-Whisper
Creator: 武汉大学，北京爱壳科技有限公司，OPPO人工智能中心
Published: 2025-09-28 20:14:06
License: 暂无描述

arXiv2025-09-28 更新2025-11-21 收录

下载链接：

https://zutm.github.io/AISHELL6-Whisper/

下载链接

链接失效反馈

官方服务：

资源简介：

AISHELL6-Whisper是一个大规模的开源音频-视觉耳语语音数据集，包含约30小时的耳语语音和并行正常语音，以及同步的前置面部视频。该数据集由167位说话者组成，每位说话者朗读约10-20分钟的诗歌文本，没有内容重叠。其中，121位参与者使用高保真麦克风和同步的RGBD相机进行录制，而其余46位参与者只录制了音频信号。音频以单通道高保真麦克风（Neumann U87）录制，采样率为48kHz，背景噪音水平低于20dB。视频录制使用RGBD相机，距离说话者1米，分辨率为1280×720，帧率为25fps。该数据集分为训练、验证和测试子集，比例约为4:1:1，确保年龄和性别在分割之间分布均衡。该数据集旨在推动耳语语音识别技术的发展，为敏感通信提供隐私保障，为声音受限的患者提供沟通桥梁，并在噪音敏感环境中实现隐蔽交互。

AISHELL6-Whisper is a large-scale open-source audio-visual whispered speech dataset containing approximately 30 hours of whispered speech and parallel normal speech, alongside synchronized frontal facial videos. This dataset consists of 167 speakers, each of whom reads about 10-20 minutes of poetic texts with no overlapping content. Among them, 121 participants were recorded using high-fidelity microphones and synchronized RGBD cameras, while the remaining 46 participants only had their audio signals captured. The audio was recorded with a single-channel high-fidelity microphone (Neumann U87) at a sampling rate of 48 kHz, with a background noise level below 20 dB. The video was recorded using an RGBD camera positioned 1 meter away from the speaker, with a resolution of 1280×720 and a frame rate of 25 fps. The dataset is divided into training, validation, and test subsets at a ratio of approximately 4:1:1, ensuring a balanced distribution of age and gender across each split. This dataset is intended to advance the development of whispered speech recognition technologies, provide privacy guarantees for sensitive communications, serve as a communication bridge for patients with vocal impairments, and enable covert interactions in noise-sensitive environments.

提供机构：

武汉大学，北京爱壳科技有限公司，OPPO人工智能中心

创建时间：

2025-09-28

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建高质量数据集是推动技术发展的关键环节。AISHELL6-Whisper数据集的构建采用严格控制的录音室环境，通过167名发音人朗读无内容重叠的诗歌文本，每位参与者录制约10-20分钟的平行耳语与正常语音。其中121名发音人同步采集高保真音频与RGBD摄像头拍摄的面部视频，音频采样率达48kHz且背景噪声低于20分贝，视频分辨率设定为1280×720以25帧率捕捉唇部运动。数据划分遵循4:1:1比例确保年龄性别均衡分布，并通过RetinaFace算法提取面部特征点实现标准化唇部区域裁剪。

特点

作为中文普通话领域规模最大的视听耳语数据集，AISHELL6-Whisper的突出特点体现在其多模态平行架构。该数据集包含30小时耳语与等量正常语音的精确对齐，配合同步采集的正面面部视频，形成独特的视听双模态数据体系。相较于现有耳语数据集，其规模优势显著且首次实现大规模中文耳语视频同步记录。数据样本涵盖167位发音人的多样化发声特性，通过序列匹配算法确保平行语句的文本一致性，其梅尔频谱图清晰呈现耳语缺失基频的声学特征，为研究声带非振动状态下的语音识别提供珍贵样本。

使用方法

该数据集适用于训练端到端视听语音识别系统，研究者可基于Whisper-Flamingo框架开展多模态融合实验。使用方法分为两个阶段：首先利用平行语音数据同步优化耳语与正常语音的识别损失函数，通过共享编码器实现声学特征对齐；随后引入视觉模态，将AV-HuBERT提取的唇部运动特征通过门控交叉注意力机制注入解码器。针对耳语音频特性，可加载轻量级投影层模块补偿频谱差异，实验表明结合视频输入能使耳语字符错误率降至4.13%。数据集支持跨语言迁移学习，在wTIMIT英文基准测试中展现出色泛化能力。

背景与挑战

背景概述

在语音识别研究领域，耳语音因其在隐私保护、医疗辅助及噪声敏感环境中的独特应用价值而备受关注。AISHELL6-Whisper数据集由武汉大学与AISHELL技术公司、OPPO人工智能中心于2025年联合发布，作为目前规模最大的中文普通话视听耳语音数据集，其核心研究目标在于解决耳语音与正常语音间的声学差异导致的识别难题。该数据集包含30小时高质量耳语音及等量平行正常语音，并配备同步面部视频，填补了中文耳语音识别领域大规模资源的空白，显著推动了多模态语音处理技术的发展。

当前挑战

耳语音识别面临双重挑战：在领域问题层面，耳语音因缺乏基频和能量衰减的特性，导致传统声学模型难以捕捉其频谱特征，且视听多模态融合中唇部运动与无声语音的关联建模存在复杂性；在构建过程中，需克服高质量平行数据采集的同步性要求，针对文本内容细微差异的跨模态对齐难题，以及在保持语音自然度前提下控制环境噪声低于20分贝的技术瓶颈。

常用场景

经典使用场景

在语音识别研究领域，AISHELL6-Whisper数据集主要应用于音频-视觉耳语语音识别系统的开发与评估。该数据集通过提供30小时高质量耳语语音及对应的正常语音平行数据，结合同步面部视频，为研究者构建多模态识别模型奠定了坚实基础。其独特的平行语料设计使得模型能够同时学习两种语音模式的声学特征差异，特别适用于探索耳语语音因缺乏基频而导致的识别难题。

实际应用

在实际应用层面，该数据集支撑的技术在医疗辅助和隐私保护场景中展现出重要价值。对于声带受损患者，基于该数据集开发的识别系统能够将耳语实时转换为正常语音输出，为言语障碍者建立沟通桥梁。在公共环境中，该系统支持用户通过耳语与智能设备进行私密交互，避免敏感信息泄露。此外，在噪音敏感场景如会议室、图书馆等场所，耳语识别技术实现了无干扰的人机交互体验。

衍生相关工作

基于该数据集衍生的经典工作主要包括多模态融合架构的优化与跨语言迁移学习研究。Whisper-Flamingo框架通过门控交叉注意力机制整合视觉特征，在LRS3数据集上达到领先性能。研究者进一步提出并行训练策略和投影层设计，有效对齐不同语音模式的嵌入表示。这些方法在wTIMIT英文数据集上展现出卓越的泛化能力，特别是对新加坡口音耳语的识别错误率降低7.4%，推动了跨语言耳语识别技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集