five

Vibravox

收藏
arXiv2024-07-16 更新2024-07-18 收录
下载链接:
https://vibravox.cnam.fr/
下载链接
链接失效反馈
官方服务:
资源简介:
Vibravox数据集由国立艺术与工艺学院机械结构与耦合系统实验室创建,包含188名参与者在不同声学条件下录制的38小时语音样本和生理声音。该数据集使用五种不同的身体传导音频传感器进行录制,并包括录音条件和语言转录的注释。数据集的创建过程涉及设计预放大和调节电路、编码录音用户界面的前后端软件等。Vibravox数据集主要应用于语音识别、语音增强和说话人验证等领域,旨在解决身体传导传感器当前的局限性。

The Vibravox dataset was developed by the Laboratory of Mechanical Structures and Coupled Systems at the National Conservatory of Arts and Crafts. It contains 38 hours of speech samples and physiological sounds recorded from 188 participants under diverse acoustic conditions. This dataset was collected using five distinct body-conducted audio sensors, and includes annotations for recording conditions and linguistic transcriptions. The creation process of the Vibravox dataset involved designing pre-amplification and conditioning circuits, as well as front-end and back-end software for the recording user interface, among other development works. Primarily applied in fields such as speech recognition, speech enhancement, and speaker verification, the Vibravox dataset aims to address the current limitations of body-conducted sensors.
提供机构:
国立艺术与工艺学院机械结构与耦合系统实验室
创建时间:
2024-07-16
原始信息汇总

VibraVox 数据集概述

数据集下载

  • 发布时间: 2024年7月
  • 下载链接: 数据集可在HuggingFace获取。
  • 补充资源: 实验复现资源可在GitHub获取。
  • 科学论文: 描述Vibravox语料库及其在不同语音处理任务中结果的论文可在arXiV获取(已提交至IEEE TASLP)。

数据集描述

  • 数据类型: 包含使用五种不同身体传导传感器(两种入耳式麦克风、两种骨传导振动拾音器和一种喉音麦克风)录制的音频数据,以及作为参考的空气传导麦克风数据。
  • 数据量: 包含38小时的语音样本和生理声音,由188名参与者在不同声学条件下录制。
  • 数据特点: 数据集符合通用数据保护条例(GDPR),并包含录制条件和语言转录的注释。
  • 录制环境: 使用高阶Ambisonics 3D空间化器模拟不同的声学条件。

数据集任务

  • 实验任务: 包括语音识别、语音增强和说话人验证等语音相关任务。
  • 实验目的: 使用最先进的模型评估和比较不同音频传感器捕获信号的性能,以更好地理解其各自特性。
搜集汇总
数据集介绍
main_image_url
构建方式
Vibravox数据集的构建涉及了多种不同的体传导音频传感器,包括两种入耳式麦克风、两种骨传导振动拾音器和一种喉骨传导麦克风。数据集还包括一个用作参考的空气传播麦克风采集的音频数据。该语料库包含了由188名参与者在高阶环绕声3D空间化器施加的不同声学条件下录制的38小时的语音样本和生理声音。语料库中还包含了关于录音条件和语言转录的注释。研究人员在语音识别、语音增强和说话人验证等与语音相关的任务上进行了实验,使用最先进的模型来评估和比较它们在不同音频传感器上的表现,旨在更好地理解这些传感器的个体特征。
特点
Vibravox数据集的特点在于其多样性和规模。它包含了五种不同的体传导音频传感器,以及在不同声学条件下录制的语音样本,这使得数据集能够覆盖广泛的声学场景。此外,数据集还包含了关于录音条件和语言转录的详细注释,这为研究人员提供了丰富的上下文信息。最后,Vibravox数据集严格遵守通用数据保护条例(GDPR),确保了参与者的隐私和安全。
使用方法
使用Vibravox数据集时,研究人员可以进行语音增强、语音识别和说话人验证等任务。数据集的多样性使得研究人员可以在不同的声学条件下测试和评估模型的表现。此外,数据集中的详细注释可以帮助研究人员更好地理解语音样本的特点,从而改进模型的设计和训练。最后,数据集的公开可用性使得研究人员可以轻松地获取和共享数据,从而推动体传导语音捕获领域的研究和发展。
背景与挑战
背景概述
Vibravox数据集是一个符合通用数据保护条例(GDPR)的音频数据集,包含使用五种不同的体传导音频传感器记录的音频录音:两个耳内麦克风、两个骨传导振动拾音器和一只喉音器。数据集还包括用作参考的空气麦克风记录的音频数据。Vibravox语料库包含由188名参与者在高阶环绕声3D空间化器施加的不同声学条件下录制的38小时的语音样本和生理声音。语料库中还包含了关于录音条件和对语言进行转录的注释。研究人员在各种语音相关任务上进行了实验,包括语音识别、语音增强和说话人验证。这些实验使用了最先进的模型,以评估和比较它们在Vibravox数据集提供的不同音频传感器捕获的信号上的性能,旨在更好地掌握它们的个体特征。
当前挑战
Vibravox数据集面临的挑战包括:1)体传导传感器在噪声环境中的优势,即通过极大地减少环境噪声对录音的影响,提高信号质量;2)体传导传感器所捕获的语音信号的有限带宽,限制了它们在现实世界中的应用;3)深度学习技术在带宽扩展、语音识别和说话人验证等方面的应用,这些技术需要大量数据进行训练和评估;4)现有数据集的局限性,包括数据收集的劳动密集性、信号质量和传感器多样性等方面的限制。Vibravox数据集旨在填补这些空白,并促进使用非常规音频传感器的语音捕获领域的研究。
常用场景
经典使用场景
Vibravox数据集通过使用五种不同的体传导音频传感器(包括两种入耳麦克风、两种骨传导振动拾音器和一种喉头电话)以及作为参考的空气传播麦克风,收集了38小时的语音样本和生理声音,由188名参与者在由高阶环绕声3D空间化器施加的不同声学条件下录制。该数据集包含关于录音条件和语言转录的注释,并在语音识别、语音增强和说话人验证等语音相关任务上进行了实验。实验使用了最先进的模型来评估和比较它们在不同音频传感器上的性能,旨在更好地理解它们的个体特征。
衍生相关工作
Vibravox数据集的发布推动了对体传导语音捕获的研究,并促进了深度学习模型的发展。它已被用于语音增强、语音识别和说话人验证等任务,以研究不同音频传感器的独特特征。此外,该数据集已被用于评估深度学习模型在不同任务上的性能,并建立性能基准。
数据集最近研究
最新研究方向
Vibravox数据集的发布为研究基于身体传导音频传感器的语音捕捉技术提供了新的可能性。该数据集的独特之处在于其包含了五种不同类型的身体传导音频传感器的音频记录,包括两种入耳式麦克风、两种骨传导振动拾音器和一种喉部电话。此外,数据集还包括作为参考的空气传导麦克风的音频数据。这些音频记录是在不同的声学条件下由188名参与者录制的,并由高阶环绕声3D空间化器施加。Vibravox数据集的最新研究方向主要集中在以下几个方面:1. 带宽扩展:由于身体传导传感器固有的低通滤波特性,其捕捉的语音信号通常缺乏高频成分。因此,研究如何通过深度学习方法扩展这些信号的带宽,以改善语音的感知质量和可懂度,成为了一个重要的研究方向。2. 语音识别:在嘈杂的环境中,身体传导传感器因其对背景噪声的抑制能力而具有优势。因此,研究如何利用这些传感器进行鲁棒的语音识别,对于开发能够在各种声学条件下工作的语音识别系统具有重要意义。3. 说话人识别:身体传导传感器捕捉的语音信号包含了丰富的生物识别信息,这使其在说话人识别领域具有潜在的应用价值。研究如何利用这些传感器进行说话人识别,对于开发基于语音的生物识别系统具有重要意义。
相关研究论文
  • 1
    Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors国立艺术与工艺学院机械结构与耦合系统实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作