CLESC

Hugging Face2024-11-18 更新2024-12-12 收录

语音分析

情感识别

数据链接：

https://huggingface.co/datasets/toloka/CLESC 数据链接链接失效反馈

官方服务：

资源简介：

CLESC-dataset是一个包含500个音频样本的数据集，这些样本混合了来自Common Voice（100个）和Voxceleb（400个）的开源数据。数据集专注于标注可扩展的语音特征，如语速（慢、正常、快、变化）、音调（低、中、高、变化）和音量（安静、中、响亮、变化），以及标注情感和独特的语音特征（自由输入，基于提供的指导）。

CLESC-dataset is a dataset consisting of 500 audio samples, which are compiled from open-source data of Common Voice (100 samples) and Voxceleb (400 samples). This dataset focuses on annotating scalable speech features including speech rate (slow, normal, fast, variable), pitch (low, medium, high, variable), and volume (quiet, medium, loud, variable), as well as annotating emotions and unique speech characteristics (free-form input based on provided guidelines).

创建时间：

2024-11-18

原始信息汇总

CLESC 数据集概述

数据集信息

名称: CLESC-dataset (Crowd Labeled Emotions and Speech Characteristics)
语言: 英语 (en)
许可证: CC BY 4.0
数据集大小: 475376 字节
下载大小: 112382 字节

数据特征

音频: 字符串类型
Crowd_Worker_1: 字符串类型
Crowd_Worker_2: 字符串类型
Crowd_Worker_3: 字符串类型
Expert_1: 字符串类型
Expert_2: 字符串类型
Expert_3: 字符串类型
source_dataset: 字符串类型
index_level_0: 整数类型 (int64)

数据集配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

数据集描述

CLESC 数据集包含 500 个音频样本，这些样本来自两个开源数据集：Common Voice (100 个样本) 和 Voxceleb (400 个样本)。数据集专注于标注可扩展的语音特征，如语速（慢、正常、快、变化）、音调（低、中、高、变化）和音量（安静、中、响亮、变化），以及标注情感和独特的语音特征（自由输入，基于提供的指导）。

贡献者

Evgeniya Sukhodolskaya
Ilya Kochik (Toloka)

参考文献

J. S. Chung, A. Nagrani, A. Zisserman. VoxCeleb2: Deep Speaker Recognition. INTERSPEECH, 2018.
A. Nagrani, J. S. Chung, A. Zisserman. VoxCeleb: a large-scale speaker identification dataset. INTERSPEECH, 2017.

搜集汇总

数据集介绍

构建方式

CLESC数据集通过整合两个开源数据集Common Voice和VoxCeleb的音频样本构建而成，共包含500个音频样本及其转录文本。数据集的核心在于对语音特征进行标注，包括语速、音高和音量等维度，同时标注了情感和独特的语音特征。标注工作由众包工人和专家共同完成，确保了标注的多样性和准确性。

使用方法

CLESC数据集可用于语音特征分析和情感识别等研究领域。研究者可以通过该数据集训练和评估语音特征提取模型，或进行情感分类任务。数据集提供了音频样本及其对应的标注信息，便于直接用于模型训练和测试。使用该数据集时，研究者可以根据需要选择众包工人或专家的标注结果，以验证模型的鲁棒性和准确性。

背景与挑战

背景概述

CLESC数据集（Crowd Labeled Emotions and Speech Characteristics）由Evgeniya Sukhodolskaya和Ilya Kochik（Toloka）于近年创建，旨在通过众包方式对语音样本进行情感和语音特征的标注。该数据集包含500个音频样本，其中100个来自Common Voice，400个来自VoxCeleb系列数据集。CLESC的核心研究问题在于如何通过众包标注的方式，系统地捕捉语音中的情感状态和语音特征，如语速、音高和音量等。这一数据集为语音情感识别和语音特征分析领域提供了新的研究资源，推动了相关算法的发展和应用。

当前挑战

CLESC数据集在构建过程中面临多重挑战。首先，语音情感和特征的标注具有高度主观性，不同标注者可能对同一语音样本给出不同的标签，这导致标注结果的一致性难以保证。其次，众包标注的质量控制是一个关键问题，如何确保众包工人的标注准确性和可靠性，是数据集构建中的一大难题。此外，语音样本的多样性和复杂性也对标注工作提出了更高的要求，尤其是在处理不同语言、口音和背景噪声的情况下，如何保持标注的一致性和准确性，是数据集构建过程中需要克服的技术挑战。

常用场景

经典使用场景

CLESC数据集在语音情感分析和语音特征识别领域具有广泛的应用。通过结合Common Voice和VoxCeleb的音频样本，该数据集为研究者提供了一个丰富的资源，用于训练和评估语音特征分类模型。特别是在语音情感识别、语速、音调和音量等特征的标注上，CLESC数据集为相关研究提供了高质量的数据支持。

解决学术问题

CLESC数据集解决了语音特征标注中的一致性和可扩展性问题。通过引入众包标注和专家标注的双重机制，该数据集确保了标注的准确性和多样性。这不仅为语音情感识别和语音特征分类的研究提供了可靠的数据基础，还推动了语音处理领域在标注方法和模型训练上的创新。

实际应用

在实际应用中，CLESC数据集被广泛用于语音助手、情感计算和语音识别系统的开发。通过利用该数据集中的语音特征标注，开发者能够优化语音识别算法，提升语音助手的情感交互能力。此外，该数据集还为语音合成技术提供了重要的参考，帮助生成更加自然和富有情感的语音输出。

数据集最近研究