CLESC|语音分析数据集|情感识别数据集
收藏CLESC 数据集概述
数据集信息
- 名称: CLESC-dataset (Crowd Labeled Emotions and Speech Characteristics)
- 语言: 英语 (en)
- 许可证: CC BY 4.0
- 数据集大小: 475376 字节
- 下载大小: 112382 字节
数据特征
- 音频: 字符串类型
- Crowd_Worker_1: 字符串类型
- Crowd_Worker_2: 字符串类型
- Crowd_Worker_3: 字符串类型
- Expert_1: 字符串类型
- Expert_2: 字符串类型
- Expert_3: 字符串类型
- source_dataset: 字符串类型
- index_level_0: 整数类型 (int64)
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集描述
CLESC 数据集包含 500 个音频样本,这些样本来自两个开源数据集:Common Voice (100 个样本) 和 Voxceleb (400 个样本)。数据集专注于标注可扩展的语音特征,如语速(慢、正常、快、变化)、音调(低、中、高、变化)和音量(安静、中、响亮、变化),以及标注情感和独特的语音特征(自由输入,基于提供的指导)。
贡献者
- Evgeniya Sukhodolskaya
- Ilya Kochik (Toloka)
参考文献
- J. S. Chung, A. Nagrani, A. Zisserman. VoxCeleb2: Deep Speaker Recognition. INTERSPEECH, 2018.
- A. Nagrani, J. S. Chung, A. Zisserman. VoxCeleb: a large-scale speaker identification dataset. INTERSPEECH, 2017.

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
海天瑞声-超大规模中文多领域高质量多轮对话语料库
这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。
魔搭社区 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录
DIOR
“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集,该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。
OpenDataLab 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录