INTP

Name: INTP
Creator: 香港中文大学（深圳）
Published: 2025-05-07 12:04:31
License: 暂无描述

arXiv2025-05-07 更新2025-05-09 收录

下载链接：

https://intalign.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

INTP（Intelligibility Preference Speech Dataset）是一个包含约25万个偏好对（超过2千小时）的多样化领域数据集，旨在通过偏好对齐技术提高零样本语音合成（TTS）系统的清晰度。该数据集涵盖了多种场景，包括绕口令、重复词汇、代码切换和多语言合成等，以解决现有TTS模型在现实世界应用中缺乏鲁棒性和清晰度的问题。INTP的数据集由多个TTS模型生成，并采用多种策略构建偏好对，以增加数据集的多样性和避免简单模式的风险。此外，INTP还通过主观评估验证了其与人类感知的清晰度和自然度的一致性，并展示了其弱到强的泛化能力。INTP数据集对于提高零样本TTS系统的性能和鲁棒性具有重要意义。

INTP (Intelligibility Preference Speech Dataset) is a diverse-domain dataset containing approximately 250,000 preference pairs (over 2,000 hours of speech) designed to improve the intelligibility of zero-shot text-to-speech (TTS) systems via preference alignment techniques. This dataset covers a wide range of scenarios including tongue twisters, repeated vocabulary, code-switching, and multilingual speech synthesis, aiming to address the issues of poor robustness and insufficient intelligibility of existing TTS models in real-world deployments. The INTP dataset is generated by multiple TTS models, with preference pairs constructed using diverse strategies to enhance dataset diversity and mitigate the risk of overfitting to simplistic patterns. Furthermore, the INTP dataset has been validated through subjective evaluations to be consistent with human-perceived intelligibility and naturalness, and it demonstrates generalized capabilities ranging from weak to strong performance. The INTP dataset holds great significance for improving the performance and robustness of zero-shot TTS systems.

提供机构：

香港中文大学（深圳）

创建时间：

2025-05-07

原始信息汇总

INTP数据集概述

数据集基本信息

名称：INTP (Intelligibility Preference Speech Dataset)
规模：约250K偏好对（超过2K小时）
用途：用于提升零样本文本到语音(TTS)系统在复杂场景下的可懂度

核心特征

多场景覆盖

常规语音
重复短语
代码切换场景
跨语言合成

集成多样化的TTS模型

ARS (基于自回归)
F5-TTS (基于流匹配)
MaskGCT (基于掩码生成模型)

偏好对构建方法

内部对(Intra Pair)：通过模型自比较使用Best-of-N采样生成
交叉对(Inter Pair)：通过不同模型输出比较生成
扰动对(Perturbed Pair)：
- 发音扰动：替换易错发音字符
- 标点扰动：修改标点改变停顿模式和韵律

数据构成

单语言合成

英语：
- 包含常规、重复、代码切换、发音扰动和标点扰动五种文本类型
- 示例参考语音："But a decades old idea might just make that a tiny bit better."
中文：
- 包含常规、重复、代码切换、发音扰动和标点扰动五种文本类型
- 示例参考语音："就是票房高。有时候啊我觉得他和澳本海默那种票房高还是有本质区别的哈。"

跨语言合成

zh2en：中文参考语音+英文目标文本
en2zh：英文参考语音+中文目标文本

应用效果

参与构建的模型改进

ARS
F5-TTS
MaskGCT

弱到强泛化能力验证

CosyVoice 2 (基于Qwen-2.5)
Ints (基于Phi-3.5-mini-instruct)

备注

数据集不包含CosyVoice 2和Ints生成的数据

搜集汇总

数据集介绍

构建方式

在语音合成领域，零样本文本到语音（TTS）系统虽然在预训练方面取得了显著进展，但在处理复杂场景时仍面临可懂度问题。为应对这一挑战，本研究构建了可懂度偏好语音数据集（INTP），通过偏好对齐技术针对性地构建超出预训练分布的数据。数据集包含约25万对偏好对（超过2000小时），覆盖多种场景，包括常规文本、重复文本、代码切换文本以及发音和标点扰动文本。数据生成采用了多种TTS模型，并利用人类知识和DeepSeek-V3引入扰动，创建人类引导的负样本。此外，通过词错误率（WER）确定偏好对时，不仅考虑了单一模型的自比较，还引入了跨模型比较以利用其互补能力。

特点

INTP数据集的特点在于其多样性和广泛覆盖性。数据集不仅包含常规语音合成场景，还特别关注了发音困难文本、代码切换和跨语言合成等挑战性场景。通过引入人类引导的负样本和跨模型比较，INTP显著提高了数据集的多样性和质量。此外，数据集还通过主观评估验证了其与人类感知的一致性，特别是在可懂度和自然度方面。INTP的构建不仅注重数据的数量，还通过多种策略确保数据的质量和多样性，从而有效避免了简单模式带来的奖励黑客风险。

使用方法

INTP数据集的使用方法主要包括直接偏好优化（DPO）框架的应用。该框架通过优化不同TTS架构（包括自回归、流匹配和掩码生成模型）来提升语音合成的可懂度。具体而言，DPO通过最大化预期奖励同时最小化与参考分布的KL散度，直接优化偏好对齐。对于流匹配和掩码生成模型，本研究还提出了DPO的扩展版本。实验表明，INTP对齐显著提升了多种TTS模型的可懂度、自然度和整体质量。此外，INTP还展示了在更强大基础模型上的弱到强泛化能力，并通过迭代对齐进一步提升了模型性能。

背景与挑战

背景概述

INTP（Intelligibility Preference Speech Dataset）是由香港中文大学（深圳）和字节跳动Seed团队于2025年提出的一个专注于提升零样本文本到语音（TTS）系统可懂度的数据集。该数据集通过偏好对齐技术，针对预训练分布外的数据进行了针对性构建，旨在解决现代零样本TTS系统在复杂场景（如绕口令、重复词、代码切换和跨语言合成）中的可懂度问题。INTP包含约250K偏好对（超过2K小时的语音数据），覆盖了多种领域和语言组合，显著提升了TTS模型的可懂度、自然度和音频质量。

当前挑战

INTP面临的挑战主要包括：1) 领域问题的挑战：零样本TTS系统在复杂场景（如跨语言合成和代码切换）中容易出现内容插入、遗漏和发音错误等问题，这些问题主要源于预训练数据与推理场景的分布不匹配。2) 构建过程中的挑战：构建高质量偏好数据集需要精心设计提示词和基础模型，并确保偏好对与人类感知一致；同时，针对不同架构的TTS模型（如自回归、流匹配和掩码生成模型）设计有效的对齐算法也极具挑战性。此外，数据集的多样性和泛化能力也需要通过跨模型比较和人工引导的负样本生成来保障。

常用场景

经典使用场景

INTP数据集在零样本文本到语音（TTS）系统的智能度优化中扮演了关键角色。该数据集通过偏好对齐技术，针对发音困难文本、代码转换和跨语言合成等挑战性场景，构建了丰富的偏好对。研究人员利用INTP对多种TTS架构进行直接偏好优化（DPO），显著提升了语音合成的清晰度和自然度。数据集覆盖了多种文本类型和语音风格，为模型在复杂场景下的性能提升提供了坚实基础。

解决学术问题

INTP数据集有效解决了零样本TTS系统在分布外数据上的智能度问题。传统系统在遇到绕口令、重复词汇或多语言混合文本时，常出现内容插入、遗漏或发音错误。通过构建包含模型自比较、跨模型比较和人工引导负样本的偏好对，INTP使研究者能够针对性地优化不同架构的TTS模型。该数据集不仅提升了基础指标如词错误率（WER），还改善了自然度、相似性和音频质量等综合性能，为语音合成领域的分布外泛化研究提供了新思路。

衍生相关工作

INTP数据集催生了一系列重要的后续研究。基于其构建方法，研究者开发了针对CosyVoice 2和Ints等更强大基座模型的弱到强泛化技术。在算法层面，该数据集推动了DPO框架在流匹配（FM）和掩码生成模型（MGM）架构上的扩展应用。相关工作还验证了迭代偏好对齐的有效性，形成了数据与模型改进的良性循环。这些衍生成果被集成到Amphion等开源工具包中，持续推动着语音合成领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集