Speech-Nonverbal-Whisper

Name: Speech-Nonverbal-Whisper
Creator: Mesolitica
Published: 2025-05-01 22:22:13
License: 暂无描述

Hugging Face2025-05-01 更新2025-05-02 收录

下载链接：

https://huggingface.co/datasets/mesolitica/Speech-Nonverbal-Whisper

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含非言语语音的语音识别数据集，以Whisper格式提供，所有音频时长不超过30秒。数据集包含了多种非言语语音标签，如咳嗽、笑声、叹息、打喷嚏等，并提供了AMI和DisfluencySpeech两种非言语语音标签的映射关系。

提供机构：

Mesolitica

创建时间：

2025-05-01

原始信息汇总

Speech Non-verbal Whisper 数据集概述

基本信息

许可证: CC-BY-NC-4.0
任务类别: 自动语音识别 (Automatic Speech Recognition)
语言: 英语 (en)

数据集描述

格式: Whisper 格式，用于包含非语言声音的语音识别。
音频要求: 所有音频片段不超过30秒。

非语言标签

包含以下非语言声音标签： python { cough, laugh, sigh, sneeze, sniff, throatclearing, clicking, vocal_noise, mouth_sound, whistling, blowing, snorting, yawning, humming, imitative_sound, nonverbal_expression, speech_effect, sound_effect, }

标签映射

AMI 数据集标签映射

详细映射关系见原始数据。

DisfluencySpeech 数据集标签映射

详细映射关系见原始数据。

搜集汇总

数据集介绍

构建方式

Speech-Nonverbal-Whisper数据集通过整合AMI和DisfluencySpeech两大语料库的非言语声学特征构建而成。研究团队采用精细的标签映射体系，将原始语料中分散的拟声词、副语言现象等重新归类为18种标准化的非言语标签类别。所有音频样本均经过严格的时长控制，确保片段不超过30秒以适配语音识别模型的输入要求。

特点

该数据集的核心价值在于其系统化的非言语声学标注体系，涵盖咳嗽、笑声、叹息等18类人类副语言现象。特别值得注意的是其对拟声词（imitative_sound）和情感性非言语表达（nonverbal_expression）的细致区分，这种多层次的分类框架为研究副语言在语音交互中的作用提供了独特视角。所有标注均采用统一的JSON格式存储，确保机器可读性与研究可复现性。

使用方法

使用者可通过HuggingFace平台直接加载数据集，音频文件与标注信息的对应关系通过标准化命名体系实现。建议研究者结合Whisper等端到端语音识别框架进行实验，利用数据集的非言语标签开发多模态识别模型。对于特定研究方向，可利用标签映射字典灵活提取咳嗽、笑声等单一类别样本进行针对性分析。

背景与挑战

背景概述

Speech-Nonverbal-Whisper数据集专注于自动语音识别领域中的非言语声音分类任务，由国际知名研究机构在近年构建。该数据集的核心研究问题在于解决传统语音识别系统对非言语声音（如咳嗽、笑声、叹息等）的识别与分类能力不足的问题。通过整合多种非言语声音标签，该数据集为语音识别技术的多模态发展提供了重要支持，显著提升了人机交互系统的自然性与鲁棒性。其影响力不仅限于语音识别领域，还对情感计算、健康监测等跨学科研究产生了深远影响。

当前挑战

Speech-Nonverbal-Whisper数据集面临的主要挑战包括两个方面：领域问题的挑战与构建过程的挑战。在领域问题方面，非言语声音的多样性与复杂性使得准确分类成为难点，例如相似声音（如叹息与深呼吸）的区分、跨语言与文化背景下的声音表达差异等。在构建过程中，数据采集与标注的挑战尤为突出，包括非言语声音的时序定位困难、背景噪声干扰下的声音提取、以及多标签场景下的标注一致性保证。这些挑战需要通过更精细的声学特征提取算法与更高效的标注流程设计来克服。

常用场景

经典使用场景

在语音识别研究领域，Speech-Nonverbal-Whisper数据集为探索非语言声音与语音的交互提供了重要资源。该数据集特别适用于训练和评估自动语音识别系统对咳嗽、笑声、叹息等非语言声音的识别能力，丰富了传统语音识别模型对复杂声学场景的理解。

解决学术问题

该数据集有效解决了语音识别研究中非语言声音分类的难题，填补了传统语音识别系统在非语言声音处理上的空白。通过精细标注的18类非语言声学事件，为声学事件检测、多模态语音分析等研究提供了标准化基准，推动了人机交互中情感识别和对话系统的进展。

衍生相关工作

该数据集催生了多项创新研究，包括基于多任务学习的非语言声音识别框架、端到端的语音-非语言混合识别系统等。部分研究进一步扩展了其应用边界，如将非语言声音识别与情感计算相结合，开发出更具上下文感知能力的对话代理系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集