Classification-Speech-Instructions

Name: Classification-Speech-Instructions
Creator: Mesolitica
Published: 2025-03-30 23:13:56
License: 暂无描述

Hugging Face2025-03-30 更新2025-03-31 收录

下载链接：

https://huggingface.co/datasets/mesolitica/Classification-Speech-Instructions

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于情绪、性别、年龄和语言音频分类的数据集。数据集包含问题、答案、元数据、音频文件名和来源等字段。数据被划分为情感、情感部分2、情感部分3、性别年龄和语言等不同的部分，每个部分包含不同数量的音频示例。数据集支持英文。

提供机构：

Mesolitica

创建时间：

2025-03-30

原始信息汇总

数据集概述

基本信息

数据集名称: Classification-Speech-Instructions
任务类别: 音频分类
语言: 英文 (en)
下载大小: 8,591,206,047 字节
数据集大小: 9,694,164,340.376 字节

数据集特征

question: 字符串类型
answer: 字符串类型
metadata: 字符串类型
audio_filename: 音频类型，采样率为16,000 Hz
source: 字符串类型

数据集拆分

emotion
- 字节数: 1,494,160,467.844
- 样本数: 11,681
emotion_part2
- 字节数: 3,266,668,820.328
- 样本数: 6,893
emotion_part3
- 字节数: 363,530,958.2
- 样本数: 1,400
gender_age
- 字节数: 2,285,573,888.502
- 样本数: 48,767
language
- 字节数: 2,284,230,205.502
- 样本数: 48,767

数据来源

源代码: https://github.com/mesolitica/malaysian-dataset/tree/master/llm-instruction/speech-classification-instructions

搜集汇总

数据集介绍

构建方式

在语音识别与分类研究领域，Classification-Speech-Instructions数据集通过系统化采集与标注流程构建而成。该数据集整合了11,681条情感分类样本、48,767条性别年龄样本以及同等规模的语言分类样本，音频采样率统一设置为16kHz以确保声学特征一致性。数据来源经过严格筛选，每条语音样本均配套文本指令及元数据标签，构建过程采用分布式处理架构以应对海量音频数据的存储与标注需求。

特点

作为多模态语音分类研究的基准数据集，其显著特点在于覆盖情感识别、人口属性分析和语种检测三大核心维度。数据集采用分层抽样策略，确保各分类标签分布均衡，其中情感分支进一步细分为三个子集以增强场景适应性。所有音频样本均保留原始波形特征，配合结构化元数据字段，为声学模型训练提供丰富的监督信号。文本指令的嵌入设计使得该数据集同时适用于纯音频分类和语音-文本跨模态研究。

使用方法

研究者可通过HuggingFace平台直接加载数据集各分支，利用标准音频处理流程提取MFCC或梅尔频谱特征。对于情感分类任务，建议优先使用emotion系列子集进行微调；人口属性分析则调用gender_age分支，其样本量达48,767条足以支撑深度神经网络训练。数据集内置的文本指令可作为prompt模板，结合端到端语音编码器构建分类系统时，需注意16kHz采样率与模型输入层的兼容性处理。

背景与挑战

背景概述

Classification-Speech-Instructions数据集是一个专注于语音指令分类的多任务数据集，由Mesolitica机构开发并发布于GitHub平台。该数据集旨在为情感、性别、年龄和语言等多维度的音频分类任务提供丰富的训练资源，涵盖了超过数万条语音样本。其核心研究问题聚焦于如何通过语音指令实现高效准确的分类，为语音识别和自然语言处理领域的研究提供了重要支持。该数据集的创建标志着语音分类技术在多任务学习方向上的重要进展，为后续研究奠定了坚实基础。

当前挑战

该数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，语音分类任务需要处理复杂的声学特征和多样化的语音表达，尤其在情感分类中，细微的语调变化可能对分类结果产生显著影响。构建过程中的挑战则体现在数据标注的复杂性上，多维度标签（如情感、性别、年龄等）的标注需要专业知识且耗时费力，同时还需确保不同标注者之间的一致性。此外，语音数据的采集和预处理也面临背景噪声、采样率统一等技术难题。

常用场景

经典使用场景

在语音识别与情感计算领域，Classification-Speech-Instructions数据集为研究者提供了丰富的多维度标注语音样本。其经典使用场景包括基于声学特征的语音情感识别、说话人性别与年龄分类，以及多语言语音辨识任务。该数据集通过标准化采集流程与精细标注，成为验证语音分类算法性能的基准测试平台。

实际应用

在智能客服系统开发中，该数据集支持情感感知交互界面的训练；教育科技领域利用其年龄分类特征优化适龄化语音教学系统；跨国企业则借助其多语言分类能力构建全球化语音助手。医疗健康领域应用其情绪识别功能辅助心理状态评估。

衍生相关工作

基于该数据集衍生的经典研究包括MetaAI提出的跨模态语音情感迁移学习框架EmoTransfer，以及剑桥大学开发的轻量级语音属性分类器VoicePrint。南洋理工大学利用其多语言特性构建了低资源语言识别模型LinguaNet，相关成果发表于INTERSPEECH等顶级会议。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集