ISSE (Instruction-guided Speech Style Editing Dataset)

Name: ISSE (Instruction-guided Speech Style Editing Dataset)
Creator: 英国萨里大学视觉、语音与信号处理中心,字节跳动智能创作,香港中文大学
Published: 2025-09-29 18:27:37
License: 暂无描述

arXiv2025-09-29 更新2025-10-01 收录

下载链接：

https://arxiv.org/abs/2509.24570v1

下载链接

链接失效反馈

官方服务：

资源简介：

ISSE数据集是一个用于语音风格编辑的开源数据集，包含近400小时的语音和超过10万对源-目标对，每对都配有详细且多样的文本编辑指令。该数据集由萨里大学视觉、语音与信号处理中心、字节跳动智能创作和香港中文大学合作创建，旨在通过自然语言指令来引导语音生成，实现灵活、可控制的语音风格编辑。数据集采用高质量的数据生成流程，包括TTS、语音转换、质量评估和大型语言模型等工具，确保生成的语音对在内容、音色和风格上的保真度。ISSE数据集可用于研究语音风格编辑，旨在解决现有方法在灵活性和可扩展性方面的限制，并为语音风格编辑模型提供训练数据。

The ISSE dataset is an open-source dataset for speech style editing, containing nearly 400 hours of speech and over 100,000 source-target pairs, each accompanied by detailed and diverse text editing instructions. This dataset was collaboratively developed by the Centre for Vision, Speech and Signal Processing at the University of Surrey, ByteDance Intelligent Creation, and The Chinese University of Hong Kong. It aims to guide speech generation through natural language instructions to enable flexible and controllable speech style editing. The dataset adopts a high-quality data generation pipeline involving tools such as TTS, voice conversion, quality assessment, and large language models, ensuring the fidelity of the generated speech pairs in terms of content, timbre, and style. The ISSE dataset can be used for speech style editing research, with the goal of addressing the limitations of existing methods in terms of flexibility and scalability, and providing training data for speech style editing models.

提供机构：

英国萨里大学视觉、语音与信号处理中心,字节跳动智能创作,香港中文大学

创建时间：

2025-09-29

搜集汇总

数据集介绍

构建方式

在语音风格编辑研究领域，构建高质量数据集是推动技术发展的关键。ISSE数据集通过三阶段流水线构建：首先利用表达性文本转语音技术生成多样化风格的目标语音，再通过语音转换统一说话人音色；随后采用多维度质量评估，包括词错误率、风格相似度和说话人相似度指标，确保内容保真度与风格一致性；最后借助大语言模型生成细粒度编辑指令，精准描述源语音与目标语音间的风格转换关系。

特点

该数据集在规模与精细度方面具有显著优势，包含382小时语音和逾10万组源-目标语音对，覆盖28种风格类别。其核心特征在于细粒度自然语言指令的引入，例如“将源语音转换为传达敬畏感的中等音调沙哑单音调”，突破了传统模板化指令的局限。通过严格的质量控制机制，数据集在内容可懂度、说话人身份一致性和风格保真度三个维度均达到较高标准，为复杂场景下的语音风格编辑提供了可靠支撑。

使用方法

该数据集适用于指导式语音风格编辑模型的训练与评估。研究人员可将源语音与文本指令作为输入，训练模型生成符合指令要求的目标语音。基准实验表明，基于ISSE训练的LlasaEdit模型在领域内和跨领域测试中均表现出优越的指令遵循能力和风格控制精度。此外，数据集可通过调整输入条件扩展至文本转语音和表达性语音合成任务，为多模态语音生成研究提供通用实验平台。

背景与挑战

背景概述

语音风格编辑作为语音处理领域的重要研究方向，旨在调整语音的情感色调、语速韵律等风格特征，同时保持其语言内容与说话人身份不变。2025年由萨里大学CVSSP研究中心与字节跳动、香港中文大学联合发布的ISSE数据集，通过构建包含38万小时语音和10万对源-目标样本的大规模资源，突破了传统方法对显式标签或参考音频的依赖。该数据集以细粒度自然语言指令为核心，推动了语音生成模型从粗粒度控制向精细化、可解释化方向的演进，为多属性联合编辑任务奠定了数据基础。

当前挑战

在语音风格编辑领域，现有方法面临指令表达单一化与数据规模受限的双重挑战。传统数据集如ESD仅支持模板化指令，难以描述多维度风格混合的复杂场景；同时其29小时的容量严重制约了模型对多样化韵律模式的学习能力。ISSE构建过程中需攻克三大技术难题：通过语音合成与声线转换技术实现内容-风格-说话人三要素解耦；设计多模态质量评估体系确保生成样本的语义保真度与风格一致性；利用大语言模型生成符合人类表达习惯的细粒度指令，避免描述歧义性对编辑效果的影响。

常用场景

经典使用场景

在语音风格编辑研究领域，ISSE数据集最经典的使用场景是训练基于自然语言指令的语音风格转换模型。该数据集通过精细构建的源-目标语音对及其对应的细粒度编辑指令，为模型学习如何在保持语音内容和说话人身份的同时精确修改风格属性提供了理想训练环境。研究人员利用该数据集训练自回归语音模型，实现从情感语调、语速节奏到音色特征等多维度的可控风格编辑，显著提升了语音风格转换的准确性和自然度。

解决学术问题

ISSE数据集有效解决了语音风格编辑领域长期存在的关键学术问题。传统方法依赖显式标签或参考音频，限制了模型的灵活性和扩展性；而现有基于自然语言描述的方法又受限于指令过于简化和风格控制粗糙。该数据集通过提供超过10万对源-目标语音样本及其对应的细粒度编辑指令，实现了对语音风格属性的精确解耦和可控编辑，为研究语音内容、说话人身份与风格特征之间的复杂交互关系提供了重要数据支撑，推动了语音生成模型向更智能、更人性化的方向发展。

衍生相关工作

ISSE数据集的发布催生了一系列重要的衍生研究工作。以LlasaEdit为代表的指令引导自回归语音模型在该数据集上取得了突破性进展，证明了细粒度指令在语音风格编辑中的有效性。同时，该数据集推动了语音合成与语音转换技术的融合创新，激发了基于大语言模型的语音指令理解、多模态语音编辑等新兴研究方向。这些工作不仅扩展了语音风格编辑的技术边界，还为构建更自然、更智能的人机语音交互系统奠定了坚实基础，形成了以指令引导为核心的语音生成研究新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集