SwanBench-Speech
收藏github2026-04-16 更新2026-04-22 收录
下载链接:
https://github.com/MM-Speech/SwanBench-Speech
下载链接
链接失效反馈官方服务:
资源简介:
SwanBench-Speech是一个用于长语音生成和对话生成的基准测试数据集,针对需要稳定说话人身份、语义连续性和表达控制的场景。它覆盖了17种常见下游场景,并组织在三个挑战轴上:声学、语义和表达性。数据集包含单说话人、双说话人和多说话人设置的推理文本数据,支持中文和英文的双语基准测试。
SwanBench-Speech is a benchmark dataset for long-form speech generation and conversational generation, targeting scenarios that require stable speaker identity, semantic coherence and expressive control. It covers 17 common downstream scenarios and is organized along three challenge axes: acoustic, semantic and expressive. The dataset contains inference text data under single-speaker, dual-speaker and multi-speaker settings, and supports bilingual benchmarking in both Chinese and English.
创建时间:
2026-04-16
原始信息汇总
SwanBench-Speech 数据集概述
数据集基本信息
- 数据集名称: SwanBench-Speech
- 核心定位: 用于长语音生成和对话生成的综合性基准测试,专注于需要稳定说话人身份、语义连续性和长段落表达控制的场景。
- 发布状态: 测试数据集已发布,评估代码待发布。
- 相关论文: Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios (ACL 2026 Findings)
数据集内容与结构
- 数据总量: 包含 1,059 个 JSONL 条目。
- 语言: 支持中文和英文双语。
- 场景覆盖: 涵盖 17 种常见下游场景,组织在声学、语义和表现力三个挑战维度下。
- 数据目录:
test_dataset/text_data/: 包含文本提示和对话脚本。mono_speaker.jsonl(431 个样本): 单说话人长语音生成。two_speaker.jsonl(527 个样本): 双说话人对话生成。multi_speaker.jsonl(101 个样本): 多说话人对话生成。
test_dataset/timbre_reference/: 保留用于未来音色条件评估的参考音频资源。
关键特征
- 场景丰富: 涵盖叙述、演讲、新闻、聊天、研讨会、戏剧、客服、体育解说等现实应用。
- 解耦评估: 沿声学、语义和表现力三个维度进行评估,便于解释模型优势和失败模式。
- 说话人设置: 支持单说话人、双说话人和多说话人设置,匹配独白和对话合成的常见部署模式。
- 数据格式: 所有 JSONL 文件共享轻量级记录模式,包含
content(话语列表)、theme(主题)、scene(场景标签)、language(语言标签)、source(来源链接或说明)、num_speakers(说话人数量) 等字段。
评估方法
- 评估协议: 引入了包含七个解耦指标的自动化评估协议,并通过人工对齐研究进行了验证。
- 评估重点: 超越单一总体分数,对一致性、连贯性和表达丰富性进行结构化分析。
资源链接
- 论文: https://github.com/MM-Speech/SwanBench-Speech#
- 演示页面: https://david-pigeon.github.io/SwanBench-Speech_Demo/
- Hugging Face 数据集: https://huggingface.co/datasets
- GitHub 仓库: https://github.com/MM-Speech/SwanBench-Speech
搜集汇总
数据集介绍

构建方式
在长语音生成领域,现有评估多集中于短句或狭窄任务,难以反映真实场景下的持续表现。SwanBench-Speech数据集通过系统化设计,覆盖了17种常见下游场景,涵盖单说话人、双说话人及多说话人设置。数据构建过程整合了叙事、演讲、新闻、对话等多种实际应用,以JSONL格式组织,每条记录包含说话人角色、文本内容、场景标签及语言信息,确保语义连贯性与表达控制需求在长上下文环境中得到充分体现。
特点
该数据集以多维度挑战轴为核心,将评估分解为声学、语义与表达力三个层面,超越单一聚合分数,使模型优势与缺陷更易于解析。其双语覆盖支持中英文长语音生成的跨语言比较,同时提供丰富的场景设置,从讲座、演讲到戏剧、体育解说,模拟真实世界中的复杂交互。数据集的轻量记录结构兼顾灵活性与一致性,为长语音生成的连贯性、韵律协调及表达控制提供了细致的分析基础。
使用方法
使用SwanBench-Speech时,研究人员可从test_dataset目录加载JSONL文件,依据单说话人、双说话人或多说话人设置获取文本提示与对话脚本。数据集支持直接输入至语音生成模型进行推理,并配合自动化评估协议,通过七项解耦指标对生成结果进行多维度量化。用户可基于场景标签与语言标签进行细分分析,探索模型在不同长语音任务中的表现,为改进一致性、语义连贯性与表达丰富度提供实证依据。
背景与挑战
背景概述
在语音生成技术快速演进的背景下,长语音生成模型虽在保真度上取得显著进展,但公开评估多集中于短语音或狭窄任务范畴,缺乏对真实长上下文场景的系统性评测。SwanBench-Speech数据集由浙江大学研究团队于2026年构建,旨在为长语音生成及对话生成提供全面基准测试,其核心研究问题聚焦于如何在多样化实际场景中评估语音的说话人身份稳定性、语义连贯性及表达控制能力。该数据集覆盖17种下游场景,并沿声学、语义与表达性三个维度构建结构化评估框架,通过解耦的自动化度量指标推动领域向更精细、可解释的评测方向发展,对语音合成与生成领域的研究具有重要影响力。
当前挑战
SwanBench-Speech所针对的长语音生成领域面临多重挑战:在声学层面,需维持长时间语音中说话人音色的高度一致性;语义层面要求跨长上下文的逻辑连贯与主题延续;表达性层面则涉及韵律、情感等副语言特征的稳定控制。构建过程中,挑战体现在如何设计覆盖多场景、多语言且平衡的语料,以及建立能够有效解耦不同能力维度的自动化评估协议。现有模型在一致性、连贯性与表达丰富性上仍与真实录音存在差距,这凸显了长语音生成在复杂实际应用中的技术瓶颈。
常用场景
经典使用场景
在语音生成领域,SwanBench-Speech数据集为长语音合成与对话生成提供了标准化的评估基准。其经典使用场景集中于对模型在多样化长上下文情境下的性能进行系统性测试,例如单说话者的叙述、双人对话及多人交互场景。通过涵盖新闻播报、有声读物、体育解说等17种实际下游任务,该数据集能够全面检验语音生成系统在保持说话人身份一致性、语义连贯性以及表达丰富性方面的能力,为研究者提供了结构化的评估框架。
实际应用
在实际应用层面,SwanBench-Speech直接服务于智能语音助手、有声内容创作、虚拟主播及客户服务系统等场景。其涵盖的讲座、访谈、戏剧等多种情境,能够帮助开发团队优化产品在复杂对话环境中的表现。例如,在教育培训领域,该数据集可助力生成连贯且富有表现力的长篇讲解语音;在娱乐产业,则能提升多角色有声剧或播客的合成质量,满足用户对高自然度长语音内容的需求。
衍生相关工作
围绕SwanBench-Speech数据集,已衍生出一系列关注长语音生成挑战的经典研究工作。这些工作主要集中于改进神经声码器与文本到语音模型的长时依赖建模能力,例如开发增强的注意力机制以维持跨句子的说话人特征一致性,或设计新的韵律预测模块来保障长篇语音的连贯性。同时,该基准也促进了跨语言语音合成的研究,激励学者探索中英文双语场景下长语音生成的通用性与差异性。
以上内容由遇见数据集搜集并总结生成



