SwanBench-Speech

Name: SwanBench-Speech
Creator: 浙江大学; 字节跳动
Published: 2026-05-27 23:28:15
License: 暂无描述

arXiv2026-05-27 更新2026-05-29 收录

下载链接：

https://swanaigc.github.io/#bench

下载链接

链接失效反馈

官方服务：

资源简介：

SwanBench-Speech是由浙江大学与字节跳动联合构建的综合性长语音生成基准数据集，旨在系统评估模型在多样化场景下的表现。该数据集包含1,101个测试样本，覆盖17种下游语音场景，涵盖声学、语义和表达力三大核心挑战，数据来源于在线文本语料库、音频媒体及大语言模型生成，并经过严格的去重、质量过滤和人工校验流程。该数据集主要应用于长文本语音合成和对话生成领域，旨在解决现有评估方法在场景覆盖度、一致性及表达力维度上的不足，为模型性能提供标准化、细粒度的自动化评估框架。

SwanBench-Speech is a comprehensive long-form speech generation benchmark dataset jointly developed by Zhejiang University and ByteDance, aiming to systematically evaluate model performance across diverse scenarios. This dataset contains 1,101 test samples, covering 17 downstream speech scenarios and encompassing three core challenges: acoustics, semantics, and expressiveness. The data is sourced from online text corpora, audio media, and outputs generated by large language models (LLMs), and has undergone strict deduplication, quality filtering, and manual verification processes. It is primarily applied in the fields of long-text speech synthesis and dialogue generation, aiming to address the shortcomings of existing evaluation methods in terms of scenario coverage, consistency and expressiveness, and provide a standardized, fine-grained automated evaluation framework for model performance.

提供机构：

浙江大学; 字节跳动

创建时间：

2026-05-27

原始信息汇总

数据集名称

SwanBench-Speech

所属机构

ByteDance（字节跳动）

发布会议/期刊

ACL 2026

基准概述

SwanBench-Speech 是一个用于评估长文本语音生成（Long-Form Speech Generation）的综合基准，覆盖多样化场景。其核心目标在于系统性地评估模型在长上下文条件下的表现，弥补现有评估在场景覆盖度和长文本因素（如一致性与连贯性）上的不足。

关键特性

丰富的语音场景：聚焦长文本语音生成与对话生成，涵盖声学、语义和表现力挑战，包含 1,101 个样本，覆盖 17 个常见语音场景。
全面的评估维度：沿声学、语义和表现力三个轴，定义了一个包含七项指标的自动化评估协议，以提供全面、准确、标准化的评估。
有价值的洞察：通过大量实验揭示，当前模型在高表现力场景中仍存在困难，且与真实录音相比，在一致性和层次性方面存在显著差距。

演示示例

按原始基准部分划分为：按维度（Per-Dimensions）、按场景（Per-Scenarios）和消融研究（Ablation Study）。
示例涵盖语音（Speech）和对话（Dialog）样本，并展示了多个模型的评估结果，如 GLM-TTS、ZipVoice、FishSpeech、Minimax、SparkTTS、Seed-TTS、VibeVoice、Gemni、IndexTTS2、F5TTS、CosyVoice3、MegaTTS3、CosyVoice2、Elenvenlabs、InworldTTS、OpenAI、MOSS-TTSD、FireRedTTS2、MoonCast、Seed-TTS-Podcast、SoulX-Podcast、ZipVoice Dialogue 等。

搜集汇总

数据集介绍

构建方式

SwanBench-Speech的构建基于层次化的评估框架，首先从声学、语义和表现力三大核心挑战出发，选取17个具有代表性的下游语音场景。数据收集采用三源混合策略：在线文本语料库（如有声书、新闻）、在线音频媒体（如播客、讲座）以及大语言模型GPT-5的生成。音频数据经过去噪、质量过滤、说话人日志和转写后，通过人工校对和标签添加进行精炼。所有样本历经语义去重、质量评估、隐私伦理筛查及人工审查四道工序，最终形成涵盖1,101个样本的高质量测试集，平均文本长度约228.6词，支持中英双语及单、双、多说话人配置。

特点

该数据集的核心特性体现在三个层面：首先，场景覆盖极为丰富，横跨客服、播客、辩论、有声书、新闻、课堂、体育解说等17种应用场景，全面映射长语音生成的真实挑战。其次，评估维度实现解耦与创新，沿声学、语义、表现力三条轴线提出了七项精细化自动度量指标，包括音色一致性、混响一致性、内容准确率、韵律连贯性、表现力丰富度及表现力层级，尤其引入了针对长文本稳定性和动态变化的评估。最后，通过人类感知对齐实验验证了度量指标的有效性，使得评估协议在可规模化部署的同时保持了对主观听感的忠实代理。

使用方法

使用SwanBench-Speech时，研究者需将待评估的长语音生成模型输出的音频与对应文本作为输入。评估流程首先沿三大挑战维度分类运行自动化管道：声学维度通过滑动窗口计算音色与混响一致性及SQUIM-PESQ质量分数；语义维度借助ASR模型计算字/词错误率和SpeechJudge评分模型评估韵律连贯性；表现力维度则利用Gemini 3-Pro作为评判模型，分别按10秒分段与整体段落评估丰富度与层级。所有度量均产生标准化数值，支持跨模型和跨场景的横向比较。基准代码与评估脚本已开源，并附带了详细的提示词模板，便于社区复现与扩展。

背景与挑战

背景概述

SwanBench-Speech诞生于语音生成技术从句子级向段落级跃迁的关键时期，由浙江大学与字节跳动联合团队于近期构建。随着深度学习赋能的语音合成系统在短句场景中趋于饱和，学界与工业界将目光投向更具挑战的长篇语音生成与对话生成任务。然而，现有评测体系多局限于单一说话人和有限领域，难以捕捉多说话人交互、复杂语义语境和篇章级韵律一致性等核心问题。该数据集开创性地将长文本语音合成质量解耦为声学、语义和表现力三大核心挑战，覆盖17种下游应用场景、1101个精心筛选的样本，并引入七项解耦指标进行自动化评估。其系统化的评估范式不仅为学术界提供了标准化的测试平台，也为工业界的产品迭代指明了方向，迅速成为长语音生成领域的重要基准。

当前挑战

SwanBench-Speech所聚焦的核心挑战在于系统性地评估长语音生成模型在复杂场景下的表现。首先，在声学层面，模型必须维持跨时长的音色一致性和混响环境稳定性，尤其在多说话人对话中，频繁的说话者切换极易破坏声场统一性，导致声学漂移。其次，在语义层面，长序列建模面临内容准确性与韵律连贯性的双重考验——传统的词错误率指标已趋饱和，而段落级的韵律自然度仍严重依赖人工评测，缺乏可扩展的自动度量。再者，在表现力层面，模型需超越单一语句的情感表达，刻画整段叙事的情感层次与节奏变化，然而现有系统在高度表达性场景下表现乏力，其韵律层级与真人录制存在显著鸿沟。数据构建本身亦充满挑战：需从文本语料、网络音频和大语言模型生成三大渠道进行混合采集，并经历严苛的语义去重、质量过滤和伦理审查流程，以确保评测样本的多样性、公正性和安全性。

常用场景

经典使用场景

SwanBench-Speech作为面向长语音生成场景的综合性基准数据集，其经典使用场景集中于对长篇连续语音与对话生成系统的多维能力进行系统评测。在该数据集的框架下，研究者能够针对语音合成模型在声学一致性、语义准确性和表现力层次三个核心维度上的表现展开深入评估，涵盖播客、有声书、在线课程、体育解说、脱口秀等十七种典型下游场景。通过引入解耦的自动评估协议与人工对齐验证机制，该数据集为长文本语音合成领域提供了一套标准化、可扩展且高对齐度的评测体系。

实际应用

在实际应用层面，SwanBench-Speech为智能语音交互系统的研发与部署提供了坚实的评测基础。在在线教育场景中，生成课程需同时保持音色与声学环境一致性、准确传达内容并展现动态变化以维持学习者的参与度；在客服与播客等场景中，多说话人对话要求模型具备稳定的声场一致性与自然的韵律流转；而在广播剧与体育直播等高度表现性场景中，情感张力与叙事层次的建模能力直接决定用户体验。该数据集的多场景覆盖与多层次指标体系，为商业级语音合成产品的质量监控、模型选型与迭代优化提供了可量化的参照基准。

衍生相关工作

SwanBench-Speech的提出催生了多项具有深远影响的相关工作，推动长语音生成领域的研究迈向更深层次。基于其多维评估框架，后续研究进一步探索了自回归与非自回归架构在长文本合成中的权衡，指出非自回归模型在稳健性与效率上占优，但自回归方法在韵律建模与表现力方面表现更佳，从而催生了粗细粒度结合的混合架构研究方向。此外，该数据集揭示的数据质量与时长连续性的关键作用，促使研究者转向采用课程学习策略，从短句逐步过渡到段落级训练，并推动了对高保真长上下文录音数据的系统采集与利用，为构建更具沉浸感与自然度的长语音合成系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集