five

CLESC|语音分析数据集|情感识别数据集

收藏
huggingface2024-11-18 更新2024-12-12 收录
语音分析
情感识别
下载链接:
https://huggingface.co/datasets/toloka/CLESC
下载链接
链接失效反馈
资源简介:
CLESC-dataset是一个包含500个音频样本的数据集,这些样本混合了来自Common Voice(100个)和Voxceleb(400个)的开源数据。数据集专注于标注可扩展的语音特征,如语速(慢、正常、快、变化)、音调(低、中、高、变化)和音量(安静、中、响亮、变化),以及标注情感和独特的语音特征(自由输入,基于提供的指导)。
创建时间:
2024-11-18
原始信息汇总

CLESC 数据集概述

数据集信息

  • 名称: CLESC-dataset (Crowd Labeled Emotions and Speech Characteristics)
  • 语言: 英语 (en)
  • 许可证: CC BY 4.0
  • 数据集大小: 475376 字节
  • 下载大小: 112382 字节

数据特征

  • 音频: 字符串类型
  • Crowd_Worker_1: 字符串类型
  • Crowd_Worker_2: 字符串类型
  • Crowd_Worker_3: 字符串类型
  • Expert_1: 字符串类型
  • Expert_2: 字符串类型
  • Expert_3: 字符串类型
  • source_dataset: 字符串类型
  • index_level_0: 整数类型 (int64)

数据集配置

  • 配置名称: default
  • 数据文件:
    • 分割: train
    • 路径: data/train-*

数据集描述

CLESC 数据集包含 500 个音频样本,这些样本来自两个开源数据集:Common Voice (100 个样本) 和 Voxceleb (400 个样本)。数据集专注于标注可扩展的语音特征,如语速(慢、正常、快、变化)、音调(低、中、高、变化)和音量(安静、中、响亮、变化),以及标注情感和独特的语音特征(自由输入,基于提供的指导)。

贡献者

  • Evgeniya Sukhodolskaya
  • Ilya Kochik (Toloka)

参考文献

  1. J. S. Chung, A. Nagrani, A. Zisserman. VoxCeleb2: Deep Speaker Recognition. INTERSPEECH, 2018.
  2. A. Nagrani, J. S. Chung, A. Zisserman. VoxCeleb: a large-scale speaker identification dataset. INTERSPEECH, 2017.
AI搜集汇总
数据集介绍
main_image_url
构建方式
CLESC数据集通过整合两个开源数据集Common Voice和VoxCeleb的音频样本构建而成,共包含500个音频样本及其转录文本。数据集的核心在于对语音特征进行标注,包括语速、音高和音量等维度,同时标注了情感和独特的语音特征。标注工作由众包工人和专家共同完成,确保了标注的多样性和准确性。
使用方法
CLESC数据集可用于语音特征分析和情感识别等研究领域。研究者可以通过该数据集训练和评估语音特征提取模型,或进行情感分类任务。数据集提供了音频样本及其对应的标注信息,便于直接用于模型训练和测试。使用该数据集时,研究者可以根据需要选择众包工人或专家的标注结果,以验证模型的鲁棒性和准确性。
背景与挑战
背景概述
CLESC数据集(Crowd Labeled Emotions and Speech Characteristics)由Evgeniya Sukhodolskaya和Ilya Kochik(Toloka)于近年创建,旨在通过众包方式对语音样本进行情感和语音特征的标注。该数据集包含500个音频样本,其中100个来自Common Voice,400个来自VoxCeleb系列数据集。CLESC的核心研究问题在于如何通过众包标注的方式,系统地捕捉语音中的情感状态和语音特征,如语速、音高和音量等。这一数据集为语音情感识别和语音特征分析领域提供了新的研究资源,推动了相关算法的发展和应用。
当前挑战
CLESC数据集在构建过程中面临多重挑战。首先,语音情感和特征的标注具有高度主观性,不同标注者可能对同一语音样本给出不同的标签,这导致标注结果的一致性难以保证。其次,众包标注的质量控制是一个关键问题,如何确保众包工人的标注准确性和可靠性,是数据集构建中的一大难题。此外,语音样本的多样性和复杂性也对标注工作提出了更高的要求,尤其是在处理不同语言、口音和背景噪声的情况下,如何保持标注的一致性和准确性,是数据集构建过程中需要克服的技术挑战。
常用场景
经典使用场景
CLESC数据集在语音情感分析和语音特征识别领域具有广泛的应用。通过结合Common Voice和VoxCeleb的音频样本,该数据集为研究者提供了一个丰富的资源,用于训练和评估语音特征分类模型。特别是在语音情感识别、语速、音调和音量等特征的标注上,CLESC数据集为相关研究提供了高质量的数据支持。
解决学术问题
CLESC数据集解决了语音特征标注中的一致性和可扩展性问题。通过引入众包标注和专家标注的双重机制,该数据集确保了标注的准确性和多样性。这不仅为语音情感识别和语音特征分类的研究提供了可靠的数据基础,还推动了语音处理领域在标注方法和模型训练上的创新。
实际应用
在实际应用中,CLESC数据集被广泛用于语音助手、情感计算和语音识别系统的开发。通过利用该数据集中的语音特征标注,开发者能够优化语音识别算法,提升语音助手的情感交互能力。此外,该数据集还为语音合成技术提供了重要的参考,帮助生成更加自然和富有情感的语音输出。
数据集最近研究
最新研究方向
在语音情感识别和语音特征分析领域,CLESC数据集的最新研究方向聚焦于如何通过众包标注和专家标注的结合,提升语音特征识别的准确性和可扩展性。该数据集整合了Common Voice和VoxCeleb两大开源语音数据集,涵盖了500个音频样本,并针对语速、音高、音量等语音特征以及情感进行了详细标注。当前研究热点包括利用深度学习模型对众包标注数据进行质量评估和校正,以及探索多模态数据融合技术在语音情感识别中的应用。这些研究不仅推动了语音特征自动标注技术的发展,还为个性化语音助手和情感计算系统的优化提供了重要数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

魔搭社区 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

DIOR

“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集,该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。

OpenDataLab 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录