CNVVE

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/hedeshy/CNVVE

下载链接

链接失效反馈

官方服务：

资源简介：

CNVVE数据集包含950个音频样本，涵盖六种不同的声音表达类别。这些表达是从42位慷慨的个体捐赠的语音录音中收集的。通过公开访问数据集，我们希望促进非言语语音交互的计算方法的研究和开发。

The CNVVE dataset consists of 950 audio samples covering six distinct vocal expression categories. These samples are collected from speech recordings donated by 42 generous individuals. By making this dataset publicly accessible, we aim to facilitate the research and development of computational methods for non-verbal vocal interaction.

创建时间：

2023-05-28

原始信息汇总

CNVVE: Dataset and Benchmark for Classifying Non-verbal Voice Expressions

数据集概述

CNVVE数据集包含950个音频样本，涵盖六种不同的非言语声音表达类别。这些样本由42名志愿者提供，旨在促进非言语声音交互的计算方法的研究和开发。

数据集下载

原始数据集: 下载链接
清洗后的数据集: 下载链接

环境设置

bash pip install virtualenv virtualenv CNVVE activate CNVVE pip install -r requirements.txt

训练和模型制作步骤

创建一个名为data的新文件夹，并将原始音频文件复制到data/raw文件夹中（也可以下载清洗后的数据并跳过下一步）。
在终端中运行python clean.py，该脚本将修剪空白的尾部信号并将清洗后的样本放置在cleaned文件夹中。
在终端中运行python normalize.py，默认使用零填充技术进行数据归一化。可以通过运行python normalize.py --mode=padding使用填充技术进行归一化。
在终端中运行python augment.py，默认使用填充数据进行数据增强。可以通过运行python normalize.py --src_root=data/padded --dst_root=data/padded_augmented来增强填充数据。
运行python createmeta.py --mode=padding创建metadata.csv文件。
运行python train.py开始训练模型。注意训练配置中的训练模式。

训练配置

可以通过修改config.json文件来使用不同的训练模式：

train_mode变量需要修改为以下几种模式：
- tn: 正常训练模式。
- thp: 超参数搜索训练模式，同时需要相应修改search_space.json文件。
- tkf: 使用k折交叉验证的训练模式，需要相应修改kfold_num以设置折数。
- tp: 生产模式下的训练，数据集不进行分割。
- tea: 用于增强评估的训练模式，还需要执行以下步骤。
对于使用增强数据集进行训练，需要设置以下变量：
- is_aug: 需要指向true。
- AUDIO_DIR: 需要指向新的增强数据集路径。
- ANNOTATIONS_FILE: 需要指向新生成的metadata.csv文件。

引用

如果该数据集对您有用，请引用以下内容：

@inproceedings{hedeshy23_interspeech, author={Ramin Hedeshy and Raphael Menges and Steffen Staab}, title={{CNVVE: Dataset and Benchmark for Classifying Non-verbal Voice}}, year=2023, booktitle={Proc. INTERSPEECH 2023}, pages={1553--1557}, doi={10.21437/Interspeech.2023-201} }

搜集汇总

数据集介绍

构建方式

CNVVE数据集的构建基于42名志愿者的语音样本，涵盖了六种不同的非语言语音表达类别，共计950个音频样本。这些样本通过精心收集和整理，旨在为非语言语音交互领域的研究提供丰富的数据资源。数据集的构建过程中，研究人员对原始音频进行了清理和标准化处理，确保了数据的质量和一致性，从而为后续的模型训练和评估奠定了坚实的基础。

特点

CNVVE数据集的显著特点在于其多样性和精细化的处理。该数据集不仅包含了多种非语言语音表达类别，还通过清理和标准化处理，确保了音频数据的高质量。此外，数据集提供了多种训练模式和配置选项，支持从基础训练到超参数搜索、K折交叉验证等多种研究需求，极大地提升了数据集的灵活性和适用性。

使用方法

使用CNVVE数据集时，首先需要下载并设置环境，随后通过一系列脚本对数据进行清理、标准化和增强处理。用户可以根据需求选择不同的训练模式，并通过修改配置文件来调整训练参数。数据集的使用流程清晰，提供了详细的步骤指导，使得研究人员能够快速上手并进行有效的模型训练和评估。

背景与挑战

背景概述

CNVVE数据集，全称为Classifying Non-verbal Voice Expressions，是由42名志愿者提供的950个音频样本组成，涵盖了六种不同的非语言语音表达类别。该数据集的创建旨在推动非语言语音交互领域的研究，特别是在计算方法的开发方面。通过公开这一数据集，研究者们希望能够促进对非语言语音表达的分类和理解，从而为语音识别和情感计算等领域提供新的研究方向。该数据集的详细描述和相关研究成果已在2023年INTERSPEECH会议上发表，由Ramin Hedeshy、Raphael Menges和Steffen Staab等人共同完成。

当前挑战

CNVVE数据集在构建过程中面临了多个挑战。首先，非语言语音表达的多样性和复杂性使得数据收集和分类变得尤为困难。其次，音频样本的质量和一致性需要通过复杂的预处理步骤来保证，如去除空白的尾随信号和数据归一化。此外，为了提高模型的泛化能力，数据增强技术的应用也带来了额外的复杂性。在模型训练方面，如何有效地配置训练模式和超参数，以适应不同的研究需求，也是一个重要的挑战。这些挑战不仅涉及到数据处理的精度，还关系到模型在实际应用中的表现和可靠性。

常用场景

经典使用场景

CNVVE数据集在非语言语音表达分类领域具有广泛的应用前景。其经典使用场景包括开发和评估用于识别和分类非语言语音表达的机器学习模型。通过该数据集，研究者可以训练模型以区分六种不同的非语言语音表达类别，如笑声、叹息等，从而推动语音交互技术的进步。

实际应用

在实际应用中，CNVVE数据集可用于开发智能语音助手、情感分析系统和人机交互界面。例如，在智能客服中，系统可以通过识别用户的非语言语音表达来更准确地判断用户的情绪状态，从而提供更加个性化的服务。

衍生相关工作

基于CNVVE数据集，研究者们已经开展了一系列相关工作，包括改进非语言语音识别算法、探索多模态情感分析方法以及开发新型语音增强技术。这些工作不仅提升了语音识别的准确性，还为未来的语音交互技术研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集