大型多模态人类语音识别数据集
收藏arXiv2023-03-15 更新2024-06-21 收录
下载链接:
https://nextcloud.gla.ac.uk/s/LJHKyBxLHXdk4xZ
下载链接
链接失效反馈官方服务:
资源简介:
本数据集由格拉斯哥大学詹姆斯·瓦特工程学院创建,包含从超宽带雷达、毫米波雷达和激光等多种传感器收集的7.5 GHz通道脉冲响应数据,以及深度摄像头记录的说话者唇部和声音地标。数据集包含约400分钟标注的语音轮廓,来自20名参与者发音的5个元音、15个单词和16个句子。创建过程涉及使用多种传感器同步记录语音和物理运动数据。该数据集适用于唇读和多模态语音识别研究,旨在解决无声语音识别和多说话者环境下的语音识别问题。
This dataset was developed by the James Watt School of Engineering, University of Glasgow. It includes 7.5 GHz channel impulse response data collected from multiple sensors such as ultra-wideband radars, millimeter-wave radars, and lasers, as well as lip regions and vocal landmarks of speakers recorded by depth cameras. The dataset contains approximately 400 minutes of annotated speech profiles, covering 5 vowels, 15 words, and 16 sentences pronounced by 20 participants. The data creation process involved synchronous recording of speech and physical motion data using multiple sensors. This dataset is applicable to research on lip reading and multimodal speech recognition, aiming to address the challenges of silent speech recognition and speech recognition in multi-speaker environments.
提供机构:
格拉斯哥大学詹姆斯·瓦特工程学院
创建时间:
2023-03-15
搜集汇总
数据集介绍

构建方式
该数据集构建于多传感器同步采集框架之上,利用TCP/IP协议与网络时间协议(NTP)实现四类核心设备的协同记录:微软Kinect V2用于捕获音频、视频及唇部骨骼关键点;NOVELDA X4M03超宽带(UWB)雷达与德州仪器AWR2243毫米波(mmWave)调频连续波(FMCW)雷达分别采集7.5 GHz和77 GHz的射频回波信号;激光测量系统则通过532 nm绿色激光二极管与高速CMOS相机记录颈部皮肤的散斑振动。实验招募20名来自不同地区的志愿者,在受控环境下依次朗读5个元音、15个单词及16个句子,并额外设计了双人对话与不同距离(0.6 m、1.2 m、2.2 m)的变体场景,总计采集约400分钟带时间戳的标注语音剖面。原始数据以二进制、MAT、WAV及JSON格式存储,并提供了预处理后的.npy与.csv文件,以降低使用门槛。
特点
该数据集的核心特色在于其前所未有的多模态融合广度与精细化物理感知深度。它首次将UWB雷达、毫米波FMCW雷达、激光散斑测振与视觉唇动追踪集成于同一语音识别框架,不仅捕捉声学信息,更从射频和光学维度量化发音过程中的唇部微动、声带振动及面部皮肤位移。这种设计使其能够支持无声语音识别(SSR)与多说话人场景下的语音分离,同时规避了传统麦克风带来的隐私风险,因为雷达信号仅提取运动特征而非可辨识的声纹。此外,数据集中包含的唇部骨骼点、多雷达多普勒谱图及激光光流信号,为跨模态表征学习、雷达辅助语音增强及基于物理信息的唇语重建等前沿研究提供了丰富的基准资源。
使用方法
使用者可通过数据集附带的MATLAB与Python脚本快速上手,例如利用FMCW_Radar_process.m加载AWR2243原始信号并执行距离-角度二维FFT以提取人体相关相位变化,或通过UWB_radar_process.m将X4M03数据转换为短时傅里叶变换(STFT)频谱。为处理多源异步问题,脚本(如uwb_cutting.py与kinect_cutting.py)支持依据Kinect时间戳对雷达与激光信号进行精确裁剪对齐。建议研究者优先使用预处理后的.npy与.csv文件进行模型训练,若需探索原始数据,则须严格参照JSON格式的时间戳进行同步。视频资源因隐私限制未公开,但可联系作者获取许可。所有代码与更新均托管于GitHub仓库,以便社区协作与复现验证。
背景与挑战
背景概述
大型多模态人类语音识别数据集由格拉斯哥大学、伦敦大学学院及邓迪大学的研究团队于2023年联合创建,核心研究人员包括Yao Ge、Chong Tang、Haobo Li等。该数据集聚焦于非接触式语音识别这一前沿领域,旨在突破传统声学方法在静默语音识别和多说话人场景中的局限性。研究团队首次整合超宽带雷达、毫米波雷达、激光散斑传感器、深度摄像头及麦克风阵列,采集了20位来自不同地域的志愿者约400分钟的语音数据,涵盖元音、单词和句子。该数据集为多模态语音识别、唇读及雷达辅助语音增强提供了标准化基准,对推动远程感知技术在医疗通信及嘈杂环境下的应用具有重要影响力。
当前挑战
该数据集面临的核心挑战包括:1) 领域问题层面,静默语音识别中仅依赖声学信号无法捕捉无声唇动与声带振动,而多说话人环境下的鸡尾酒会效应导致音频源分离困难,需借助雷达与激光物理信息实现鲁棒识别;2) 构建过程中,多传感器同步存在约80毫秒的时延,需通过网络时间协议与后处理校正;3) 不同调制方式的雷达(UWB与FMCW)及激光数据在时间分辨率、频段和抗干扰能力上差异显著,融合策略需兼顾物理特性;4) 参与者口音与体型差异增加了泛化难度,且唇部视频因隐私限制无法公开,限制了视觉模态的复用性。
常用场景
经典使用场景
在语音识别领域,该大型多模态人类语音识别数据集为研究非接触式、非侵入式的无声语音识别(SSR)提供了宝贵的资源。通过融合超宽带(UWB)雷达、毫米波(mmWave)雷达、激光散斑传感器以及深度摄像头捕捉的唇部骨架点,研究者得以在无需麦克风的情况下,从物理振动与运动信号中解码语音内容。这一场景尤其适用于嘈杂环境或多说话人混叠的“鸡尾酒会效应”情境,突破了传统声学信号易受干扰的局限,开辟了基于射频与光学传感的语音感知新范式。
解决学术问题
该数据集系统性地解决了语音识别研究中两个长期存在的学术难题:一是无声语音识别中缺乏大规模、多模态的非接触式基准数据,二是多说话人场景下声源分离的精度瓶颈。通过提供同步采集的UWB雷达、FMCW雷达、激光、音频及唇部运动数据,研究者得以探索物理振动与声学特征之间的映射关系,从而在保护隐私的前提下提升语音识别鲁棒性。其意义在于为跨模态语音增强、说话人识别及抗噪语音处理提供了标准化的验证平台,推动了无线感知与语音技术的交叉融合。
衍生相关工作
基于该数据集,衍生了一系列开创性工作。在算法层面,研究者提出了多输入ResNet融合框架,通过联合UWB与毫米波雷达的频谱特征实现了15个词汇的高精度分类,验证了雷达模态互补的有效性。在系统层面,相关工作探索了基于激光散斑的喉部振动提取方法,结合光流算法与带通滤波实现了无声语音信号的恢复。此外,该数据集还催生了针对距离自适应与多人声源分离的基准研究,例如利用FMCW雷达的角度到达(AoA)信息区分不同说话者,为下一代无线感知语音系统奠定了理论与实践基础。
以上内容由遇见数据集搜集并总结生成



