five

SpeechJudge-Data

收藏
github2025-11-14 更新2025-11-16 收录
下载链接:
https://github.com/AmphionTeam/SpeechJudge
下载链接
链接失效反馈
官方服务:
资源简介:
SpeechJudge-Data是一个大规模人类反馈语料库,包含99K语音对。该数据集使用多种先进的零样本文本到语音(TTS)模型构建,涵盖不同的语音风格和多种语言,并提供了关于可懂度和自然度偏好的人类标注。

SpeechJudge-Data is a large-scale human feedback corpus consisting of 99K speech pairs. Built with a variety of state-of-the-art zero-shot text-to-speech (TTS) models, this dataset covers diverse speech styles and multiple languages, and provides human annotations regarding preferences for intelligibility and naturalness.
创建时间:
2025-11-14
原始信息汇总

SpeechJudge 数据集概述

数据集简介

SpeechJudge 是一个专注于语音自然度评估的综合套件,旨在解决语音合成领域缺乏大规模人类偏好数据集的问题。该套件围绕自然度这一语音合成最基本的主观指标构建。

核心组件

SpeechJudge-Data

  • 规模:99K 语音对的大规模人类反馈语料库
  • 构建方式:使用多样化的零样本文本转语音模型
  • 覆盖范围:多种语音风格和多种语言
  • 标注内容:清晰度和自然度偏好的人类标注

SpeechJudge-Eval

  • 功能:语音自然度判断的挑战性基准测试

SpeechJudge-GRM

  • 基础模型:基于 Qwen2.5-Omni-7B 的生成式奖励模型
  • 训练方法:两阶段后训练过程
    • 带思维链原理的监督微调
    • 在挑战性案例上使用 GRPO 进行强化学习

功能特性

  • 自动自然度评估:比较两个 TTS 音频输出并获得量化评分
  • 多标准语音评估:
    • 韵律和语调
    • 节奏和节拍
    • 发音和清晰度
    • 整体自然度
  • 思维链推理:提供带有详细推理过程的可解释分析
  • 推理时扩展:可选推理时扩展以提升判断准确性

发布计划

  • SpeechJudge-Data:发布带有人类标注的 99K 语音对数据集
  • SpeechJudge-Eval:发布用于基准测试 AudioLLMs 的评估流程
  • SpeechJudge-GRM:
    • 已完成:成对语音比较的推理流程
    • 计划中:通过 vLLM 添加推理时扩展支持

引用信息

bibtex @article{zhang2025speechjudge, title={SpeechJudge: Towards Human-Level Judgment for Speech Naturalness}, author={Zhang, Xueyao and Wang, Chaoren and Liao, Huan and Li, Ziniu and Wang, Yuancheng and Wang, Li and Jia, Dongya and Chen, Yuanzhe and Li, Xiulin and Chen, Zhuo and Wu, Zhizheng}, journal={arXiv preprint arXiv:2511.07931}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成领域,构建高质量的人类偏好数据集对于模型对齐至关重要。SpeechJudge-Data通过集成多种先进的零样本文本转语音模型,生成了涵盖多样化语音风格与多语言环境的99,000组语音对。该数据集在构建过程中特别注重语音的清晰度与自然度,并辅以人工标注的双重评估机制,确保了数据在主观评价维度的可靠性与全面性。
使用方法
用户可通过GitHub仓库获取SpeechJudge-Data,并利用其配套的评估工具进行语音自然度分析。具体操作包括加载预训练的生成奖励模型,输入目标文本及待比较的语音文件路径,模型将自动输出量化评分与详细分析结果。该流程支持多维度评估,如韵律、节奏、发音清晰度等,并可通过推理时扩展技术进一步提升判断精度,为研究与实践提供便捷且可靠的解决方案。
背景与挑战
背景概述
在语音合成技术快速发展的背景下,2025年由AmphionTeam等研究机构联合发布的SpeechJudge-Data数据集应运而生。该数据集聚焦于解决生成式语音模型与人类感知对齐的核心难题,通过整合99,000对跨语言、多风格的零样本语音样本,构建了当前规模最大的人类自然度偏好标注库。其创新性地将可懂度与自然度作为双重评估维度,为语音合成领域提供了至关重要的对齐基准,显著推动了基于人类反馈的语音模型优化进程。
当前挑战
语音自然度评估领域长期面临主观评判标准难以量化的根本挑战,传统方法在跨语言韵律建模和细粒度感知对齐方面存在明显局限。数据集构建过程中需克服多维度标注一致性维护的困难,包括处理不同语种韵律特征的标注歧义、平衡多样发音风格的数据分布,以及确保大规模人工标注的质量控制。这些挑战直接关系到评估体系在真实场景中的泛化能力与可靠性。
常用场景
经典使用场景
在语音合成技术领域,SpeechJudge-Data数据集被广泛应用于训练和评估语音自然度的判别模型。该数据集通过整合多种零样本文本转语音模型生成的语音对,并辅以人类对可懂度与自然度的偏好标注,为研究者提供了标准化的人机交互评估框架。其典型应用场景包括对比不同语音合成系统输出的质量差异,以及优化生成式模型的反馈机制,从而推动语音合成技术向更高自然度水平演进。
解决学术问题
该数据集有效解决了语音合成领域长期存在的自然度评估标准化难题。传统主观评测方法存在成本高昂、标准不统一等局限,SpeechJudge-Data通过大规模人工标注数据构建了可量化的评估基准,使研究者能够系统分析语音韵律、节奏、清晰度等多维特征对人类感知的影响。这种数据驱动的方法为建立具有解释性的语音质量评估体系提供了重要支撑,显著提升了该领域研究的科学性与可复现性。
实际应用
在实际工业应用中,SpeechJudge-Data为智能语音产品开发提供了关键质量保障。语音助手、有声内容生成、辅助通信设备等场景均可基于该数据集的评估框架,实现对合成语音质量的自动化监测与优化。通过集成其衍生的生成式奖励模型,企业能够持续提升语音交互系统的自然度与用户体验,同时大幅降低人工测试成本,推动语音技术在教育、医疗、娱乐等领域的规模化落地。
数据集最近研究
最新研究方向
在语音合成领域,随着生成式模型的快速发展,如何使其输出与人类主观感知保持一致成为关键挑战。SpeechJudge-Data作为大规模人类反馈数据集,正推动基于人类自然度偏好的对齐研究,其构建涵盖多语言与多样化语音风格的零样本TTS模型输出,为开发可解释的生成式奖励模型提供数据基础。该数据集支撑的评估框架正引领语音质量自动评判的前沿探索,通过思维链推理机制实现多维度自然度分析,显著提升了合成语音与人类感知的一致性,对构建下一代人性化语音交互系统具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作