ESMB(Elevoc Simultaneously-recorded Microphone/Bone-sensor) speech corpus

github2021-10-07 更新2024-05-31 收录

下载链接：

https://github.com/elevoctech/ESMB-corpus

下载链接

链接失效反馈

资源简介：

该语料库包含128小时的中文语音，由131名男性和156名女性说话者录制。录制过程中，语音通过Elevoc Clear耳塞中的一对传感器捕捉，其中ST 25ba BC传感器位于耳道附近收集颅骨振动，AC传感器位于耳外作为近讲麦克风。每位说话者阅读约20分钟的汉语提示，每只耳塞以16 kHz立体声录制语音。

This corpus comprises 128 hours of Chinese speech, recorded by 131 male and 156 female speakers. During the recording process, the speech was captured through a pair of sensors in the Elevoc Clear earbuds, with the ST 25ba BC sensor located near the ear canal to collect cranial vibrations, and the AC sensor positioned outside the ear as a close-talk microphone. Each speaker read approximately 20 minutes of Chinese prompts, with the speech recorded in 16 kHz stereo by each earbud.

创建时间：

2021-10-07

原始信息汇总

ESMB语音语料库概述

数据集描述

名称：ESMB（Elevoc Simultaneously-recorded Microphone/Bone-sensor）语音语料库
语言：中文
时长：128小时
发言人：131名男性与156名女性，共计287人
录音设备：Elevoc Clear耳塞，包含ST 25ba BC传感器（收集头骨振动）和AC传感器（作为近讲麦克风）
录音格式：16 kHz立体声
录音时长：每位发言人约20分钟

数据集用途

该语料库适用于语音识别、语音增强等相关研究。

数据集下载

下载链接

AI搜集汇总

数据集介绍

构建方式

ESMB（Elevoc Simultaneously-recorded Microphone/Bone-sensor）语音语料库的构建采用了先进的录音技术，通过131名男性和156名女性发音者进行中文语音录制，总时长达到128小时。每位发音者佩戴Elevoc Clear耳塞，耳塞内置ST 25ba BC传感器用于捕捉耳道附近的颅骨振动，同时外部AC传感器作为近距离麦克风进行语音采集。每位发音者需朗读约20分钟的中文提示语，每只耳塞以16 kHz的立体声格式记录语音数据。

特点

该数据集的特点在于其独特的双传感器设计，能够同时捕捉颅骨振动和空气传导的语音信号，为语音识别和生物声学研究提供了丰富的多模态数据。数据集涵盖了广泛的发音者群体，确保了数据的多样性和代表性。此外，16 kHz的采样率保证了语音信号的高保真度，为后续的语音处理和分析提供了坚实的基础。

使用方法

ESMB数据集的使用方法主要围绕语音信号的多模态分析展开。研究者可以通过对比分析BC传感器和AC传感器采集的语音信号，探索颅骨振动与空气传导语音之间的关系。该数据集适用于语音识别、语音增强、生物声学等领域的研究。下载数据集后，用户可通过标准的音频处理工具对数据进行预处理和分析，结合机器学习算法进行模型训练和验证，以提升语音处理系统的性能。

背景与挑战

背景概述

ESMB（Elevoc Simultaneously-recorded Microphone/Bone-sensor）语音语料库是一个专门设计用于研究骨传导与空气传导语音信号的数据集。该数据集由Elevoc公司于近年创建，旨在通过同时记录骨传导传感器（BC）和近距离麦克风（AC）的语音信号，探索语音信号在不同传导方式下的特性差异。数据集包含128小时的中文语音，由131名男性和156名女性发音者录制，每位发音者朗读约20分钟的中文提示语。这一数据集的发布为语音信号处理、语音增强、语音识别等领域的研究提供了重要的实验基础，尤其在骨传导语音信号的分析与应用方面具有显著的影响力。

当前挑战

ESMB数据集在构建和应用过程中面临多重挑战。首先，骨传导语音信号的采集与处理技术尚不成熟，如何在复杂环境下准确捕捉并分离骨传导信号与空气传导信号是一个关键难题。其次，数据集的构建需要高精度的硬件设备支持，以确保信号的质量和一致性，这对设备的校准与同步提出了较高要求。此外，由于骨传导信号的特性与空气传导信号存在显著差异，如何设计有效的算法以提取并利用这些差异信息，是语音增强和识别领域的重要研究方向。这些挑战不仅推动了相关技术的发展，也为未来的研究提供了丰富的探索空间。

常用场景

经典使用场景

在语音识别和语音增强领域，Bone-sensor speech corpus数据集提供了一个独特的资源，用于研究通过骨传导传感器和传统麦克风同时捕捉的语音信号。这种双模态数据采集方式使得研究人员能够深入分析语音信号在不同传输介质中的表现，从而优化语音识别算法，特别是在嘈杂环境下的性能。

衍生相关工作

基于Bone-sensor speech corpus数据集，已经衍生出多项重要的研究工作，包括但不限于基于深度学习的语音增强算法、多模态语音识别系统的开发以及特定于骨传导信号的语音特征提取方法。这些研究不仅推动了语音处理技术的发展，也为相关领域的学术研究提供了新的视角和方法。

数据集最近研究