SpeechJudge-Data

github2025-11-14 更新2025-11-16 收录

下载链接：

https://github.com/AmphionTeam/SpeechJudge

下载链接

链接失效反馈

官方服务：

资源简介：

SpeechJudge-Data是一个大规模人类反馈语料库，包含99K语音对。该数据集使用多种先进的零样本文本到语音（TTS）模型构建，涵盖不同的语音风格和多种语言，并提供了关于可懂度和自然度偏好的人类标注。

SpeechJudge-Data is a large-scale human feedback corpus consisting of 99K speech pairs. Built with a variety of state-of-the-art zero-shot text-to-speech (TTS) models, this dataset covers diverse speech styles and multiple languages, and provides human annotations regarding preferences for intelligibility and naturalness.

创建时间：

2025-11-14

原始信息汇总

SpeechJudge 数据集概述

数据集简介

SpeechJudge 是一个专注于语音自然度评估的综合套件，旨在解决语音合成领域缺乏大规模人类偏好数据集的问题。该套件围绕自然度这一语音合成最基本的主观指标构建。

核心组件

SpeechJudge-Data

规模：99K 语音对的大规模人类反馈语料库
构建方式：使用多样化的零样本文本转语音模型
覆盖范围：多种语音风格和多种语言
标注内容：清晰度和自然度偏好的人类标注

SpeechJudge-Eval

功能：语音自然度判断的挑战性基准测试

SpeechJudge-GRM

基础模型：基于 Qwen2.5-Omni-7B 的生成式奖励模型
训练方法：两阶段后训练过程
- 带思维链原理的监督微调
- 在挑战性案例上使用 GRPO 进行强化学习

功能特性

自动自然度评估：比较两个 TTS 音频输出并获得量化评分
多标准语音评估：
- 韵律和语调
- 节奏和节拍
- 发音和清晰度
- 整体自然度
思维链推理：提供带有详细推理过程的可解释分析
推理时扩展：可选推理时扩展以提升判断准确性

发布计划

SpeechJudge-Data：发布带有人类标注的 99K 语音对数据集
SpeechJudge-Eval：发布用于基准测试 AudioLLMs 的评估流程
SpeechJudge-GRM：
- 已完成：成对语音比较的推理流程
- 计划中：通过 vLLM 添加推理时扩展支持

引用信息

bibtex @article{zhang2025speechjudge, title={SpeechJudge: Towards Human-Level Judgment for Speech Naturalness}, author={Zhang, Xueyao and Wang, Chaoren and Liao, Huan and Li, Ziniu and Wang, Yuancheng and Wang, Li and Jia, Dongya and Chen, Yuanzhe and Li, Xiulin and Chen, Zhuo and Wu, Zhizheng}, journal={arXiv preprint arXiv:2511.07931}, year={2025} }

搜集汇总

数据集介绍

构建方式

在语音合成领域，构建高质量的人类偏好数据集对于模型对齐至关重要。SpeechJudge-Data通过集成多种先进的零样本文本转语音模型，生成了涵盖多样化语音风格与多语言环境的99,000组语音对。该数据集在构建过程中特别注重语音的清晰度与自然度，并辅以人工标注的双重评估机制，确保了数据在主观评价维度的可靠性与全面性。

使用方法

用户可通过GitHub仓库获取SpeechJudge-Data，并利用其配套的评估工具进行语音自然度分析。具体操作包括加载预训练的生成奖励模型，输入目标文本及待比较的语音文件路径，模型将自动输出量化评分与详细分析结果。该流程支持多维度评估，如韵律、节奏、发音清晰度等，并可通过推理时扩展技术进一步提升判断精度，为研究与实践提供便捷且可靠的解决方案。

背景与挑战

背景概述

在语音合成技术快速发展的背景下，2025年由AmphionTeam等研究机构联合发布的SpeechJudge-Data数据集应运而生。该数据集聚焦于解决生成式语音模型与人类感知对齐的核心难题，通过整合99,000对跨语言、多风格的零样本语音样本，构建了当前规模最大的人类自然度偏好标注库。其创新性地将可懂度与自然度作为双重评估维度，为语音合成领域提供了至关重要的对齐基准，显著推动了基于人类反馈的语音模型优化进程。

当前挑战

语音自然度评估领域长期面临主观评判标准难以量化的根本挑战，传统方法在跨语言韵律建模和细粒度感知对齐方面存在明显局限。数据集构建过程中需克服多维度标注一致性维护的困难，包括处理不同语种韵律特征的标注歧义、平衡多样发音风格的数据分布，以及确保大规模人工标注的质量控制。这些挑战直接关系到评估体系在真实场景中的泛化能力与可靠性。

常用场景

经典使用场景

在语音合成技术领域，SpeechJudge-Data数据集被广泛应用于训练和评估语音自然度的判别模型。该数据集通过整合多种零样本文本转语音模型生成的语音对，并辅以人类对可懂度与自然度的偏好标注，为研究者提供了标准化的人机交互评估框架。其典型应用场景包括对比不同语音合成系统输出的质量差异，以及优化生成式模型的反馈机制，从而推动语音合成技术向更高自然度水平演进。

解决学术问题

该数据集有效解决了语音合成领域长期存在的自然度评估标准化难题。传统主观评测方法存在成本高昂、标准不统一等局限，SpeechJudge-Data通过大规模人工标注数据构建了可量化的评估基准，使研究者能够系统分析语音韵律、节奏、清晰度等多维特征对人类感知的影响。这种数据驱动的方法为建立具有解释性的语音质量评估体系提供了重要支撑，显著提升了该领域研究的科学性与可复现性。

实际应用

在实际工业应用中，SpeechJudge-Data为智能语音产品开发提供了关键质量保障。语音助手、有声内容生成、辅助通信设备等场景均可基于该数据集的评估框架，实现对合成语音质量的自动化监测与优化。通过集成其衍生的生成式奖励模型，企业能够持续提升语音交互系统的自然度与用户体验，同时大幅降低人工测试成本，推动语音技术在教育、医疗、娱乐等领域的规模化落地。

数据集最近研究