CLESC|语音分析数据集|情感识别数据集
收藏huggingface2024-11-18 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/toloka/CLESC
下载链接
链接失效反馈资源简介:
CLESC-dataset是一个包含500个音频样本的数据集,这些样本混合了来自Common Voice(100个)和Voxceleb(400个)的开源数据。数据集专注于标注可扩展的语音特征,如语速(慢、正常、快、变化)、音调(低、中、高、变化)和音量(安静、中、响亮、变化),以及标注情感和独特的语音特征(自由输入,基于提供的指导)。
创建时间:
2024-11-18
原始信息汇总
CLESC 数据集概述
数据集信息
- 名称: CLESC-dataset (Crowd Labeled Emotions and Speech Characteristics)
- 语言: 英语 (en)
- 许可证: CC BY 4.0
- 数据集大小: 475376 字节
- 下载大小: 112382 字节
数据特征
- 音频: 字符串类型
- Crowd_Worker_1: 字符串类型
- Crowd_Worker_2: 字符串类型
- Crowd_Worker_3: 字符串类型
- Expert_1: 字符串类型
- Expert_2: 字符串类型
- Expert_3: 字符串类型
- source_dataset: 字符串类型
- index_level_0: 整数类型 (int64)
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集描述
CLESC 数据集包含 500 个音频样本,这些样本来自两个开源数据集:Common Voice (100 个样本) 和 Voxceleb (400 个样本)。数据集专注于标注可扩展的语音特征,如语速(慢、正常、快、变化)、音调(低、中、高、变化)和音量(安静、中、响亮、变化),以及标注情感和独特的语音特征(自由输入,基于提供的指导)。
贡献者
- Evgeniya Sukhodolskaya
- Ilya Kochik (Toloka)
参考文献
- J. S. Chung, A. Nagrani, A. Zisserman. VoxCeleb2: Deep Speaker Recognition. INTERSPEECH, 2018.
- A. Nagrani, J. S. Chung, A. Zisserman. VoxCeleb: a large-scale speaker identification dataset. INTERSPEECH, 2017.
AI搜集汇总
数据集介绍

构建方式
CLESC数据集通过整合两个开源数据集Common Voice和VoxCeleb的音频样本构建而成,共包含500个音频样本及其转录文本。数据集的核心在于对语音特征进行标注,包括语速、音高和音量等维度,同时标注了情感和独特的语音特征。标注工作由众包工人和专家共同完成,确保了标注的多样性和准确性。
使用方法
CLESC数据集可用于语音特征分析和情感识别等研究领域。研究者可以通过该数据集训练和评估语音特征提取模型,或进行情感分类任务。数据集提供了音频样本及其对应的标注信息,便于直接用于模型训练和测试。使用该数据集时,研究者可以根据需要选择众包工人或专家的标注结果,以验证模型的鲁棒性和准确性。
背景与挑战
背景概述
CLESC数据集(Crowd Labeled Emotions and Speech Characteristics)由Evgeniya Sukhodolskaya和Ilya Kochik(Toloka)于近年创建,旨在通过众包方式对语音样本进行情感和语音特征的标注。该数据集包含500个音频样本,其中100个来自Common Voice,400个来自VoxCeleb系列数据集。CLESC的核心研究问题在于如何通过众包标注的方式,系统地捕捉语音中的情感状态和语音特征,如语速、音高和音量等。这一数据集为语音情感识别和语音特征分析领域提供了新的研究资源,推动了相关算法的发展和应用。
当前挑战
CLESC数据集在构建过程中面临多重挑战。首先,语音情感和特征的标注具有高度主观性,不同标注者可能对同一语音样本给出不同的标签,这导致标注结果的一致性难以保证。其次,众包标注的质量控制是一个关键问题,如何确保众包工人的标注准确性和可靠性,是数据集构建中的一大难题。此外,语音样本的多样性和复杂性也对标注工作提出了更高的要求,尤其是在处理不同语言、口音和背景噪声的情况下,如何保持标注的一致性和准确性,是数据集构建过程中需要克服的技术挑战。
常用场景
经典使用场景
CLESC数据集在语音情感分析和语音特征识别领域具有广泛的应用。通过结合Common Voice和VoxCeleb的音频样本,该数据集为研究者提供了一个丰富的资源,用于训练和评估语音特征分类模型。特别是在语音情感识别、语速、音调和音量等特征的标注上,CLESC数据集为相关研究提供了高质量的数据支持。
解决学术问题
CLESC数据集解决了语音特征标注中的一致性和可扩展性问题。通过引入众包标注和专家标注的双重机制,该数据集确保了标注的准确性和多样性。这不仅为语音情感识别和语音特征分类的研究提供了可靠的数据基础,还推动了语音处理领域在标注方法和模型训练上的创新。
实际应用
在实际应用中,CLESC数据集被广泛用于语音助手、情感计算和语音识别系统的开发。通过利用该数据集中的语音特征标注,开发者能够优化语音识别算法,提升语音助手的情感交互能力。此外,该数据集还为语音合成技术提供了重要的参考,帮助生成更加自然和富有情感的语音输出。
数据集最近研究
最新研究方向
在语音情感识别和语音特征分析领域,CLESC数据集的最新研究方向聚焦于如何通过众包标注和专家标注的结合,提升语音特征识别的准确性和可扩展性。该数据集整合了Common Voice和VoxCeleb两大开源语音数据集,涵盖了500个音频样本,并针对语速、音高、音量等语音特征以及情感进行了详细标注。当前研究热点包括利用深度学习模型对众包标注数据进行质量评估和校正,以及探索多模态数据融合技术在语音情感识别中的应用。这些研究不仅推动了语音特征自动标注技术的发展,还为个性化语音助手和情感计算系统的优化提供了重要数据支持。
以上内容由AI搜集并总结生成
