ChiSER-5

Hugging Face2025-05-25 更新2025-05-26 收录

下载链接：

https://huggingface.co/datasets/prepikes/ChiSER-5

下载链接

链接失效反馈

官方服务：

资源简介：

ChiSER-5是一个用于中文语音情感识别任务的小型数据集。它包含了五个基本的情感类别，每个类别包含100条中文语音样本。总时长35分钟，平均4秒，采样率16kHz，位深度16bit。情感类别包括高兴、伤心、生气、中性和惊喜。

ChiSER-5 is a small-scale dataset designed for Chinese speech emotion recognition tasks. It includes five fundamental emotional categories, with 100 Chinese speech samples per category. The total duration of the dataset amounts to 35 minutes, with an average length of 4 seconds per sample. The sampling rate is 16 kHz and the bit depth is 16-bit. The emotional categories include happiness, sadness, anger, neutral, and surprise.

创建时间：

2025-05-24

原始信息汇总

ChiSER-5: 中文语音情感识别数据集概述

基本信息

名称: ChiSER-5: Chinese Speech Emotion Recognition Dataset
语言: 中文 (zh)
任务类别: 音频分类 (audio-classification)
规模: 小于1K样本 (n<1K)
许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)

数据集详情

情感类别:
- 高兴 (Happy)
- 伤心 (Sad)
- 生气 (Angry)
- 中性 (Neutral)
- 惊喜 (Surprise)
样本数量:
- 每个情感类别: 100条语音样本
- 总计: 500条语音样本
音频特性:
- 总时长: 35分钟
- 平均时长: 4秒
- 采样率: 16kHz
- 位深度: 16bit

文件结构

ChiSER-5/ ├── happy/ │ ├── happy_001.wav │ ├── happy_002.wav │ └── ... ├── sad/ │ ├── sad_001.wav │ └── ... ├── angry/ │ └── ... ├── neutral/ │ └── ... └── surprise/ └── ...

使用许可

允许行为:
- 共享 (Share): 在任何媒介以任何形式复制、发行本作品
- 演绎 (Adapt): 修改、转换或以本作品为基础进行创作
- 商业用途
要求:
- 适当的署名
- 提供指向本许可的链接
- 标明是否修改原始作品

加载方式

python from datasets import load_dataset

dataset_name = "prepikes/ChiSER-5" try: dataset = load_dataset(dataset_name) print(f"{dataset_name}") print(dataset)

if train in dataset:
    example = dataset[train][0]
    for key, value in example.items():
        if key == audio and isinstance(value, dict) and array in value:
             print(f"  {key}: ( sampling_rate：{value.get(sampling_rate, N/A)}, len: {len(value[array])})")
        else:
            print(f"  {key}: {value}")

except Exception as e: print(f"{dataset_name} load_fault: {e}")

搜集汇总

数据集介绍

构建方式

在语音情感识别研究领域，ChiSER-5数据集通过系统化采集构建而成。研究团队精选五类基础情感状态，采用专业录音设备以16kHz采样率和16bit位深标准，录制总时长35分钟的500条中文语音样本。每个情感类别严格控制在100条样本量，通过人工标注确保情感标签的准确性，最终形成按情感类别分目录存储的标准化语音库。

特点

该数据集在中文语音情感识别领域展现出独特价值，其样本时长均控制在4秒左右，既保留完整情感表达又符合模型输入要求。五类情感标签体系覆盖人类基础情绪谱系，特别是包含惊喜这一复杂情感类别，为模型训练提供更丰富的语义空间。所有音频文件采用WAV格式存储，保持原始音质无损，便于直接用于声学特征提取和深度学习模型训练。

使用方法

使用者可通过Hugging Face平台便捷获取该数据集，利用datasets库的load_dataset函数实现一键加载。数据集已预处理好目录结构，按情感类别分文件夹存储，支持直接用于PyTorch或TensorFlow等框架的语音处理流水线。加载后的数据对象包含音频波形数组和采样率等关键信息，研究者可快速构建情感分类任务的DataLoader，或进一步提取MFCC等声学特征进行模型训练。

背景与挑战

背景概述

ChiSER-5数据集是专为中文语音情感识别研究而设计的小型数据集，由匿名研究团队构建并发布于HuggingFace平台。该数据集聚焦于语音信号处理与情感计算交叉领域，旨在解决中文语境下语音情感自动识别的核心问题。数据集收录了高兴、伤心、生气、中性和惊喜五种基本情感类别的语音样本，每种情感包含100条经过标准化处理的16kHz采样率音频，总时长达35分钟。作为早期中文情感语音资源，其紧凑的规模特别适合模型原型验证与算法可行性研究，为后续大规模中文情感语音数据库的建立提供了重要参考框架。

当前挑战

在领域问题层面，ChiSER-5面临跨方言情感表达差异性的识别挑战，中国各地方言在音调与情感载体上的显著差异增加了模型泛化难度。同时，离散情感标签难以捕捉人类情感表达的连续谱特征，样本中可能存在的标注主观性会影响模型鲁棒性。构建过程中，数据收集受到文化特定性的制约，标准普通话环境下的录音难以全面反映真实场景中的情感复杂性。有限的样本规模导致深度学习模型容易过拟合，而音频预处理时背景噪声的消除与语音特征的标准化提取也构成技术挑战。

常用场景

经典使用场景

在语音情感识别领域，ChiSER-5数据集为研究者提供了一个标准化的测试平台，用于验证和比较不同算法在中文语音情感分类任务上的性能。该数据集涵盖了五种基本情感类别，适用于训练和评估深度学习模型，如卷积神经网络（CNN）和循环神经网络（RNN），以识别语音中的情感特征。

解决学术问题

ChiSER-5数据集解决了中文语音情感识别研究中数据稀缺的问题，为学术界提供了一个高质量的基准数据集。通过该数据集，研究者能够探索情感特征提取、模型泛化能力以及跨语言情感识别等关键问题，推动了语音情感识别技术的发展。

衍生相关工作

基于ChiSER-5数据集，研究者们开发了多种先进的语音情感识别模型，如基于注意力机制的LSTM模型和混合CNN-RNN架构。这些工作不仅提升了情感识别的准确率，还为后续研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集