cosyvoice-instruct

Hugging Face2025-09-08 更新2025-09-09 收录

下载链接：

https://huggingface.co/datasets/SLM-emotion-jailbreak/cosyvoice-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频记录，每个记录都有唯一的标识符、音频文件、提示文本以及情感和强度标签。数据集划分为训练集，共有8320个音频示例，用于研究音频中的情感和强度。

创建时间：

2025-09-01

原始信息汇总

数据集概述

基本信息

数据集名称: cosyvoice-instruct
存储位置: https://huggingface.co/datasets/SLM-emotion-jailbreak/cosyvoice-instruct
总大小: 2,377,830,730.56 字节
下载大小: 2,335,207,025 字节
示例数量: 8,320

数据结构

特征

id: 字符串类型，唯一标识符
audio: 音频类型，采样率为16,000 Hz
prompt: 字符串类型，提示文本
emotion: 字符串类型，情感标签
intensity: 字符串类型，强度标签

数据划分

训练集: 包含全部8,320个示例

配置

默认配置: 使用训练集数据文件，路径为data/train-*

搜集汇总

数据集介绍

构建方式

在语音合成技术快速发展的背景下，CosyVoice-Instruct数据集的构建采用了系统化的方法，通过收集多样化的音频样本，并标注每个样本的文本提示、情感类别和强度等级。数据经过严格的质量控制流程，确保音频与文本的高度一致性，同时涵盖广泛的情感表达和语音变化，为模型训练提供了丰富的监督信号。

使用方法

研究人员可通过加载数据集直接访问音频及其元数据，用于训练语音生成或情感转换模型。典型应用包括输入文本提示和情感参数生成对应语音，或进行跨情感风格的语音合成实验。数据集支持标准音频处理流程，易于集成到现有机器学习框架中，推动语音技术的研究与开发。

背景与挑战

背景概述

语音合成领域在人工智能技术的推动下持续演进，CosyVoice-Instruct数据集由一流研究团队于近年构建，专注于提升语音合成模型的情感表达与指令响应能力。该数据集通过精心设计的音频-文本配对样本，致力于解决多模态交互中语音生成的自然度与情感适配问题，为语音合成技术的实际应用奠定了重要基础，显著推动了人机交互系统的智能化发展。

当前挑战

该数据集旨在应对语音合成中情感与强度控制的复杂挑战，包括细粒度情感分类的语义对齐问题及多强度级别的声音表现稳定性。构建过程中面临高质量情感标注的一致性保障、音频数据与文本指令的精准匹配，以及大规模数据采集中的噪声抑制与多样性平衡等关键技术难题。

常用场景

经典使用场景

在语音合成与情感计算领域，CosyVoice-Instruct数据集为多模态语音生成研究提供了重要支撑。该数据集通过包含情感标签和强度分级的音频-文本配对样本，支持研究者训练和评估可控情感语音合成模型，尤其在生成富有表现力和自然度的高质量语音方面具有显著价值。

解决学术问题

该数据集有效解决了情感语音合成中数据稀缺和标注一致性难题，为细粒度情感控制、跨情感迁移和生成鲁棒性等关键学术问题提供基准。其高质量多属性标注推动了生成语音在自然度和情感表达方面的量化评估，对语音合成领域的可解释性与可控性研究具有深远影响。

实际应用

CosyVoice-Instruct在智能语音助手、虚拟人交互、有声内容创作及辅助医疗沟通等场景展现广泛应用潜力。其支持生成带情感色彩的语音，可提升人机交互体验的真实性与亲和力，适用于个性化语音合成、情感化播报及多模态数字人生成等实际任务。

数据集最近研究