five

Tongue and Lips corpus (TaL)

收藏
arXiv2020-11-19 更新2024-06-21 收录
下载链接:
https://www.ultrax-speech.org/ultrasuite
下载链接
链接失效反馈
官方服务:
资源简介:
Tongue and Lips corpus (TaL) 是由爱丁堡大学语音技术研究中心等机构创建的多说话人语料库,包含音频、超声舌成像和唇视频数据。TaL分为两部分:TaL1包含一位专业声优的六次录音,TaL80包含81位无声优经验的英语母语者的录音。整体数据集包含24小时的平行超声、视频和音频数据,其中约13.5小时为语音数据。该数据集用于语音识别、语音合成(构音-声学映射)和超声与音频的自动同步等任务,旨在解决语音处理中的多模态数据同步和分析问题。

Tongue and Lips corpus (TaL) is a multi-speaker corpus created by the Speech Technology Research Center of the University of Edinburgh and other institutions, which includes audio, ultrasound tongue imaging and lip video data. TaL is divided into two parts: TaL1 contains six recordings from a professional voice actor, while TaL80 contains recordings from 81 native English speakers with no prior voice acting experience. The overall dataset contains 24 hours of parallel ultrasound, video and audio data, of which approximately 13.5 hours are speech data. This dataset is used for tasks such as speech recognition, speech synthesis (articulatory-acoustic mapping), and automatic synchronization of ultrasound and audio, aiming to solve the problems of multimodal data synchronization and analysis in speech processing.
提供机构:
爱丁堡大学语音技术研究中心
创建时间:
2020-11-19
搜集汇总
数据集介绍
main_image_url
构建方式
在言语产生过程中,准确捕捉发音器官的动态变化对于语言学、语音处理及言语病理学等领域具有重要价值。TaL数据集的构建采用了多模态同步采集策略,通过Articulate Assistant Advanced软件整合了超声舌成像、唇部视频及音频数据。采集过程中,82名英语母语者佩戴UltraFit稳定头盔,确保超声探头与摄像头的固定位置,以获取高质量的舌部中矢状面图像及唇部动态视频。音频数据在半消声室中使用专业麦克风录制,采样率为48kHz。数据采集涵盖了朗读、默读及自发语音等多种言语类型,并通过硬件同步机制确保多模态数据的时间对齐,最终形成了总计约24小时的并行多模态语料库。
特点
TaL数据集的核心特点在于其多模态同步性与丰富的说话人多样性。该数据集不仅提供了超声舌成像、唇部视频和音频的并行数据流,还涵盖了从专业配音演员到普通说话人的广泛样本,包括81名无配音经验的英语母语者,从而增强了数据的代表性与泛化能力。数据内容涵盖了校准语句、标准朗读文本及自发语音等多种言语模式,并包含默读与朗读的对比样本,为研究无声言语界面及发音-声学映射提供了独特资源。此外,数据集通过详细的元数据标注与文件组织,支持灵活的数据访问与任务定制,适用于语音识别、言语合成及多模态同步等前沿研究。
使用方法
TaL数据集的使用方法围绕其多模态特性展开,适用于语音技术领域的多项基准任务。在语音识别方面,研究者可利用超声或唇部视频数据开发无声语音识别系统,并通过音频数据作为监督信号进行模型训练与评估。对于言语合成任务,该数据集支持从发音动作到声学特征的映射研究,例如通过编码器-解码器架构实现舌部或唇部图像到声学参数的转换。此外,数据集提供的同步信号与时间对齐元数据便于开发自动同步算法,以校准超声与音频流。用户可根据文件名标签筛选特定言语类型(如朗读、默读或自发语音),并利用附带的文本转录与分段标注进行精细化分析,从而推动多模态语音处理技术的创新。
背景与挑战
背景概述
在语音科学与言语技术领域,精确捕捉发音器官的动态变化对于理解语音产生机制至关重要。Tongue and Lips corpus (TaL) 数据集由爱丁堡大学语音技术研究中心等机构于2020年发布,旨在提供同步的多模态发音数据,涵盖超声波舌像、唇部视频与音频信号。该数据集的核心研究问题聚焦于通过多模态成像技术,推动无声语音接口、发音-声学映射及跨模态同步等前沿方向的发展,为语音识别、合成及病理学研究提供了珍贵的实验资源。
当前挑战
TaL数据集所针对的领域问题在于实现从发音器官动态到声学信号的高精度映射,其挑战体现在超声波舌像的噪声干扰、图像分辨率局限以及个体生理差异导致的成像质量波动。在构建过程中,研究人员面临数据采集的实操难题,例如发音过程中头部移动或设备位移造成的图像退化,以及跨会话设备位置缺乏标准化带来的数据对齐复杂性。此外,多说话者数据的异构性要求算法具备强大的泛化能力,以应对不同发音习惯与成像条件的变化。
常用场景
经典使用场景
在言语科学与语音技术领域,TaL数据集为多模态语音研究提供了关键资源。其经典应用场景在于推动无声语音接口的发展,通过整合超声舌像、唇部视频与音频数据,研究者能够构建基于发音器官动态的语音识别与合成系统。这一场景尤其适用于语音障碍患者的辅助沟通技术,或在嘈杂环境中实现无声交流,为跨模态语音处理奠定了实证基础。
实际应用
在实际应用层面,TaL数据集已广泛应用于临床语音治疗与语言教育领域。例如,在语音障碍康复中,治疗师可利用超声舌像可视化患者的舌部运动,提供实时生物反馈以纠正发音错误。同时,该数据集为开发智能语言学习工具提供了数据支撑,通过分析发音器官的精确动作,帮助第二语言学习者改善口音与发音准确性,体现了从实验室研究到社会服务的有效转化。
衍生相关工作
围绕TaL数据集,已衍生出一系列经典研究工作。在无声语音识别方向,研究者基于其多模态数据开发了融合舌像与唇部特征的深度神经网络模型,显著提升了识别准确率。在发音-声学映射任务中,团队利用编码器-解码器架构实现了从超声图像到语音的高质量合成。此外,数据集还催生了自动同步算法如UltraSync的优化,为多模态数据对齐提供了高效解决方案,推动了相关开源工具与基准测试的完善。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作