non_curated_vibravox
收藏Hugging Face2025-01-10 更新2025-01-11 收录
下载链接:
https://huggingface.co/datasets/Cnam-LMSSC/non_curated_vibravox
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含四个配置:speech_clean、speech_noisy、speechless_clean和speechless_noisy。每个配置都包含多种音频数据(如头戴式麦克风、前额加速度计、软耳内麦克风等)、性别、说话者ID、句子ID(部分配置)、持续时间、原始文本、标准化文本和音素化文本(部分配置)。数据集分为训练集、验证集和测试集,每个集的大小和示例数量都有详细说明。
提供机构:
Laboratoire de Mécanique des Structures et des Systèmes Couplés
创建时间:
2025-01-10
原始信息汇总
数据集概述
数据集名称
non_curated_vibravox
数据集配置
数据集包含四个配置:
- speech_clean
- speech_noisy
- speechless_clean
- speechless_noisy
数据集特征
每个配置包含以下特征:
- audio.headset_microphone: 音频数据
- audio.forehead_accelerometer: 音频数据
- audio.soft_in_ear_microphone: 音频数据
- audio.rigid_in_ear_microphone: 音频数据
- audio.temple_vibration_pickup: 音频数据
- audio.throat_microphone: 音频数据
- gender: 性别信息
- speaker_id: 说话者ID
- duration: 音频时长
- raw_text: 原始文本
- normalized_text: 标准化文本
- phonemized_text: 音素化文本
数据集分割
每个配置包含以下分割:
- train: 训练集
- validation: 验证集
- test: 测试集
数据集大小
- speech_clean:
- 下载大小: 66375643193 字节
- 数据集大小: 72107816342.59601 字节
- speech_noisy:
- 下载大小: 3994572339 字节
- 数据集大小: 4082424464.04 字节
- speechless_clean:
- 下载大小: 3756127731 字节
- 数据集大小: 5858234744.0 字节
- speechless_noisy:
- 下载大小: 14034848650 字节
- 数据集大小: 15597237656.0 字节
数据集示例数量
- speech_clean:
- 训练集: 22109 个示例
- 验证集: 2594 个示例
- 测试集: 3148 个示例
- speech_noisy:
- 训练集: 1220 个示例
- 验证集: 132 个示例
- 测试集: 175 个示例
- speechless_clean:
- 训练集: 149 个示例
- 验证集: 18 个示例
- 测试集: 21 个示例
- speechless_noisy:
- 训练集: 149 个示例
- 验证集: 18 个示例
- 测试集: 21 个示例
数据文件路径
- speech_clean:
- 训练集:
speech_clean/train-* - 验证集:
speech_clean/validation-* - 测试集:
speech_clean/test-*
- 训练集:
- speech_noisy:
- 训练集:
speech_noisy/train-* - 验证集:
speech_noisy/validation-* - 测试集:
speech_noisy/test-*
- 训练集:
- speechless_clean:
- 训练集:
speechless_clean/train-* - 验证集:
speechless_clean/validation-* - 测试集:
speechless_clean/test-*
- 训练集:
- speechless_noisy:
- 训练集:
speechless_noisy/train-* - 验证集:
speechless_noisy/validation-* - 测试集:
speechless_noisy/test-*
- 训练集:
搜集汇总
数据集介绍

构建方式
non_curated_vibravox数据集的构建基于多模态音频数据的采集,涵盖了多种音频传感器,如头戴式麦克风、前额加速度计、软耳内麦克风等。数据通过不同环境下的语音和无声状态进行录制,分为干净和嘈杂两种条件。数据集通过严格的标注流程,确保每个音频样本均包含性别、说话者ID、句子ID、持续时间等元数据,并提供了原始文本、标准化文本和音素化文本的多层次标注。
特点
该数据集的特点在于其丰富的多模态音频数据,涵盖了多种传感器采集的音频信号,能够支持语音识别、语音增强、声纹识别等多种任务。数据集分为干净和嘈杂两种环境条件,提供了多样化的语音样本。此外,数据集还包含了详细的元数据信息,如性别、说话者ID、句子ID等,为研究提供了多维度的分析基础。每个样本的音频数据均经过标准化和音素化处理,便于后续的语音处理任务。
使用方法
non_curated_vibravox数据集的使用方法较为灵活,用户可以根据研究需求选择不同的配置,如干净语音或嘈杂语音。数据集提供了训练、验证和测试三个标准划分,便于模型的训练和评估。用户可以通过加载指定的数据文件路径,获取相应的音频数据和元数据。对于语音识别任务,可以直接使用标准化文本或音素化文本作为标签;对于声纹识别任务,则可以利用说话者ID进行模型训练。数据集的多样性和丰富的元数据信息,使其适用于多种语音相关的研究和应用场景。
背景与挑战
背景概述
non_curated_vibravox数据集是一个专注于多模态语音数据收集与分析的研究工具,旨在通过多种传感器捕捉语音信号及其相关的振动数据。该数据集由多个配置组成,包括干净语音、噪声语音、无声语音及其对应的噪声版本,涵盖了头戴式麦克风、额头加速度计、软耳内麦克风、刚性耳内麦克风、太阳穴振动传感器和喉部麦克风等多种传感器数据。该数据集的创建旨在推动语音识别、语音合成以及多模态信号处理领域的研究,尤其是在复杂环境下的语音信号分析与处理方面。通过提供丰富的多模态数据,该数据集为研究人员提供了探索语音信号与振动信号之间关系的宝贵资源。
当前挑战
non_curated_vibravox数据集在解决复杂环境下的语音信号处理问题时面临多重挑战。首先,噪声环境下的语音信号质量较差,如何有效分离语音与背景噪声是一个关键问题。其次,多模态数据的同步与融合技术尚不成熟,如何将来自不同传感器的数据高效整合以提升语音识别的准确性仍需深入研究。此外,数据集的构建过程中,传感器数据的校准与同步、数据标注的准确性以及大规模数据的存储与处理也是技术难点。这些挑战不仅影响了数据集的构建效率,也对后续的研究应用提出了更高的技术要求。
常用场景
经典使用场景
在语音信号处理领域,non_curated_vibravox数据集被广泛用于多模态语音信号的研究。该数据集通过头戴式麦克风、前额加速度计、软耳内麦克风等多种传感器采集语音信号,为研究者提供了丰富的多模态数据。这些数据不仅包含传统的音频信号,还涵盖了振动信号和生理信号,使得研究者能够深入探索语音信号在不同传感器下的表现及其相互关系。
实际应用
在实际应用中,non_curated_vibravox数据集为智能语音助手、语音识别系统以及语音增强技术的开发提供了重要支持。通过利用该数据集中的多模态数据,开发者能够设计出更加鲁棒的语音识别算法,尤其是在嘈杂环境下的语音识别性能得到了显著提升。此外,该数据集还可用于开发基于振动信号的语音识别系统,为听力障碍者提供新的语音交互方式。
衍生相关工作
non_curated_vibravox数据集催生了一系列经典研究工作,尤其是在多模态语音信号处理领域。基于该数据集的研究成果包括多模态语音识别模型、基于振动信号的语音增强算法以及说话者识别系统。这些工作不仅推动了语音信号处理技术的发展,还为相关领域的交叉研究提供了新的思路和方法。例如,一些研究利用该数据集中的振动信号开发了新型的语音识别系统,显著提升了在嘈杂环境下的识别准确率。
以上内容由遇见数据集搜集并总结生成



