OpenS2S_ Datasets

Name: OpenS2S_ Datasets
Creator: 中国科学院自动化研究所
Published: 2025-07-08 00:31:37
License: 暂无描述

arXiv2025-07-08 更新2025-07-09 收录

下载链接：

https://huggingface.co/datasets/CASIA-LM/OpenS2S_ Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

OpenS2S数据集是一个完全开源的、透明且端到端的LSLM，旨在实现富有同情心的语音交互。该数据集基于BLSP-Emo模型，采用流式交织解码架构以实现低延迟语音生成。OpenS2S还包含一个自动化的数据构建管道，能够以低成本合成多样化的、高质量的同情心语音对话。通过利用大型语言模型生成同情心内容和可控的文本到语音系统引入说话者和情感变化，构建了一个具有丰富副语言多样性和最小人工监督的可扩展训练语料库。该数据集为研究社区提供了丰富的资源，包括数据集、模型权重、预训练和微调代码，以促进合作研究和推动同情心语音系统的创新。

The OpenS2S dataset is a fully open-source, transparent, end-to-end LSLM designed to enable compassionate speech interactions. Built on the BLSP-Emo model, this dataset adopts a streaming interleaved decoding architecture to achieve low-latency speech generation. OpenS2S additionally features an automated data construction pipeline that can synthesize diverse, high-quality compassionate speech dialogues at low cost. By leveraging large language models to generate compassionate content and controllable text-to-speech systems to introduce speaker and emotional variations, it constructs a scalable training corpus with rich paralinguistic diversity and minimal human supervision. This dataset provides abundant resources for the research community, including the dataset itself, model weights, pre-training and fine-tuning codes, to facilitate collaborative research and drive innovation in compassionate speech systems.

提供机构：

中国科学院自动化研究所

创建时间：

2025-07-08

搜集汇总

数据集介绍

构建方式

OpenS2S数据集的构建采用了创新的自动化流程，通过整合大语言模型（LLMs）与可控文本转语音（TTS）系统的优势，实现了高质量共情语音对话的低成本合成。具体流程分为三阶段：首先从公开语音情感识别数据集中筛选并人工标注种子音频，涵盖多维度特征（如情感、年龄、性别）；随后利用Qwen3-32B-Instruct生成具有语用敏感性的指令，结合CosyVoice2进行语音克隆以保持说话人多样性；最后通过LLM生成共情文本响应，并由TTS系统合成情感化语音输出。该方法显著降低了人工标注需求，同时确保了语音的语用多样性和情感表达丰富性。

特点

该数据集的核心特点体现在多维度的语用标注体系与高质量语音合成。所有输入语音均标注情感、年龄、性别三重语用标签，输出语音则采用固定年轻女声配合动态情感响应，形成100,000条英汉双语语音-语音指令对。数据分布上，查询语句覆盖7种主要情绪类型（如快乐、愤怒、悲伤）和3个年龄层次，响应语句则细分为8种情感状态（如中性、关切、兴奋）。这种设计不仅保留了传统语音指令的语义完整性，更通过系统化的情感维度控制，为模型提供了学习语音中非语言线索的标准化训练基准。

使用方法

数据集支持端到端共情语音系统的开发与评估，主要应用于三阶段训练：语音理解预训练阶段可结合LibriSpeech等ASR数据集进行跨模态行为对齐；语音生成预训练阶段利用Emilia数据集扩展语音解码器词汇量；共情指令微调阶段则直接采用本数据集进行多任务学习。使用时需注意语音-语音与文本-语音样本的平衡配置，以避免模态偏差。研究人员可通过Hugging Face平台获取标准化格式的数据，配套发布的模型权重与训练代码可快速复现论文中的流式交互系统。评估时建议结合VoiceBench和URO-Bench的标准化测试集，全面衡量模型在指令执行与情感响应方面的性能。

背景与挑战

背景概述

OpenS2S数据集由中国科学院自动化研究所、武汉人工智能研究院及GWM AI Lab等机构的研究团队于2025年提出，旨在推动开源 empathetic 大型语音语言模型（LSLM）的发展。该数据集聚焦于解决语音交互中的共情能力缺失问题，通过整合语音中的副语言信息（如语调、节奏、情感）与语义内容，构建低延迟的端到端语音对话系统。其创新性体现在采用自动化数据构建管道，结合大语言模型与可控文本转语音技术，以低成本生成高质量、多样化的共情语音对话数据，显著降低了传统方法对海量标注数据的依赖。作为首个完全开源的共情语音交互数据集，OpenS2S为语音情感计算、人机交互等领域提供了可复现的研究基准。

当前挑战

OpenS2S面临的挑战主要体现在两方面：领域问题层面，语音交互中的共情建模需同时捕捉语义内容与复杂的副语言特征（如情感波动、年龄/性别相关的声学特征），而现有模型常因模态对齐不足导致响应生硬；数据构建层面，合成高质量共情语音需平衡三大矛盾——自动化生成效率与情感表达真实性的矛盾、说话人多样性与声学一致性的矛盾，以及语义合理性（如避免数学对话等非自然语音场景）与情感标注粒度的矛盾。此外，流式解码架构的实时性要求与模型参数量间的权衡，进一步增加了低延迟共情响应的实现难度。

常用场景

经典使用场景

OpenS2S数据集在语音情感交互领域具有广泛的应用场景，尤其在需要实时、低延迟的语音对话系统中表现突出。该数据集通过结合大型语言模型（LLMs）和可控文本转语音（TTS）系统，生成了多样化的情感语音对话数据，适用于语音助手、心理咨询机器人等需要高情感交互能力的场景。其独特的流式交错解码架构使得模型能够在对话中实时生成富有情感色彩的语音响应，极大地提升了用户体验。

实际应用

在实际应用中，OpenS2S数据集为智能客服、虚拟助手和心理健康支持系统提供了强大的技术支持。例如，在心理咨询场景中，基于该数据集训练的模型能够通过语音准确感知用户情绪并生成共情响应，从而提供更自然的情感支持。此外，其支持的多语言特性（如中英双语）使其在全球市场中具有广泛的应用潜力，满足了不同语言用户的个性化需求。

衍生相关工作

OpenS2S数据集的发布衍生了一系列经典研究工作，尤其是在开源情感语音模型领域。例如，BLSP-Emo和Qwen2-Audio等模型在其基础上进一步优化了语音理解和生成能力。此外，该数据集还推动了流式语音生成架构（如Minmo和LLaMA-Omni2）的发展，为实时语音交互提供了新的技术路径。这些工作共同推动了情感语音系统的技术进步和应用落地。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集