SE-Eval

Hugging Face2026-01-08 更新2026-01-09 收录

下载链接：

https://huggingface.co/datasets/SE-Eval/SE-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

SE-Eval是首个专门为语音编辑（SE）模型自动评估设计的大规模基准数据集。传统TTS指标往往无法捕捉局部编辑质量，而SE-Eval提供了多维度的真实评估标准，包括整体质量（平均意见得分MOS）、边界自然度（边界MOS）和上下文一致性（环境、韵律和情感一致性）。数据集总时长为24.21小时的编辑语音，包含9,151个独特的合成音频片段，覆盖了10种主流语音编辑模型（扩散模型、自回归模型和端到端架构），并提供了44,451个由专业标注者提供的主观评分。数据集涵盖五个具有挑战性的子领域：RealEdit（日常真实世界音频场景）、LongHard（复杂长句和罕见术语）、Environment（多样化环境背景）、Prosody（表达性游戏角色语音）和Emotion（高保真情感语音）。每个样本包含原始音频、编辑后的音频、转录文本和多维度人类评分。

创建时间：

2026-01-01

原始信息汇总

SE-Eval数据集概述

数据集基本信息

名称: SE-Eval
语言: 英语
许可协议: CC-BY-4.0
规模: 10K<n<100K
任务类别: 音频分类、文本转语音
标签: 语音编辑、评估基准、音频质量评估
官方描述: 首个专为语音编辑模型自动评估设计的大规模基准。

数据集规模

总时长: 24.21小时的编辑后语音。
音频样本: 9,151个独特的合成片段。
覆盖模型: 10个主流语音编辑模型（扩散、自回归和端到端架构）。
人工评分: 由专业标注员提供的44,451个主观评分。

评估维度

数据集提供多维度的真实数据以评估：

整体质量: 平均意见得分。
边界自然度: 边界平均意见得分。
上下文一致性: 环境、韵律和情感一致性。

子领域分布

数据集涵盖五个具有挑战性的场景以确保鲁棒性：

子领域	描述	来源/参考
RealEdit	日常真实世界音频场景	RealEdit数据集
LongHard	包含罕见术语的复杂长句	专门合成
Environment	具有不同环境背景的样本	机场、车站等
Prosody	富有表现力的游戏角色语音	原神
Emotion	高保真情感语音	IEMOCAP

数据结构

数据集中的每个样本通常包含以下元数据：

original_audio: 编辑前的源音频。
edited_audio: 语音编辑模型的输出。
transcript: 编辑片段的目标文本。
human_ratings: 五个核心指标的（1-5分）多维度评分。

获取方式

可通过以下地址直接下载数据集：https://huggingface.co/datasets/YOUR_ANONYMOUS_ORG/SE-Eval

搜集汇总

数据集介绍

构建方式

在语音编辑评估领域，SE-Eval数据集的构建体现了严谨的学术设计。其核心源于对十种主流语音编辑模型输出的系统性收集，这些模型涵盖了扩散模型、自回归模型以及端到端架构。通过专业标注人员对超过九千个独特合成音频片段进行人工评估，产生了四万四千余项涵盖整体质量、边界自然度及语境一致性等多维度的主观评分，从而形成了具有可靠地面真值的大规模基准。

特点

SE-Eval的显著特点在于其评估维度的全面性与场景覆盖的广泛性。它不仅提供了传统的整体平均意见分数，更创新性地引入了边界自然度以及环境、韵律、情感三个层面的语境一致性评分。数据集精心设计了五个具有挑战性的子领域，包括真实日常场景、复杂长句、多样环境背景、富有表现力的游戏角色语音以及高保真情感语音，确保了评估基准在面对不同编辑任务时的鲁棒性与普适性。

使用方法

该数据集为语音编辑模型的自动化评估提供了标准化流程。研究者可通过访问托管平台直接浏览或下载完整数据集，每个样本均包含原始音频、编辑后音频、目标文本转录以及多维人工评分。利用这些结构化数据，可以便捷地计算模型输出与人工评分之间的相关性，从而定量评估不同模型在局部编辑质量、自然度保持及上下文融合等方面的性能，推动语音编辑技术的迭代与发展。

背景与挑战

背景概述

在语音合成与处理领域，传统评估体系多聚焦于整体语音质量，难以精准衡量语音编辑任务中局部修改的保真度与自然度。SE-Eval数据集应运而生，作为首个专为语音编辑模型自动评估设计的大规模基准，由匿名研究团队于2026年构建，旨在填补该领域评估标准的空白。其核心研究问题在于建立多维度、细粒度的评估框架，以客观量化编辑语音在整体质量、边界自然度及语境一致性等方面的表现。该数据集涵盖了多种复杂场景与主流模型输出，为语音编辑技术的迭代与比较提供了至关重要的实证基础，推动了该领域评估方法向更科学、更系统的方向发展。

当前挑战

SE-Eval数据集致力于解决语音编辑领域模型输出质量评估的挑战。传统语音合成评估指标往往忽略局部编辑效果，而语音编辑要求精准评估编辑边界处的自然过渡、以及编辑片段与原始语境在环境音、韵律和情感上的一致性，这构成了该领域固有的评估难题。在数据集构建过程中，研究团队面临多重挑战：首先，需在涵盖日常对话、复杂长句、多样环境背景、丰富韵律及高保真情感语音的五个子领域中，系统性地构建具有代表性的源数据三元组；其次，获取大规模、高质量的人类主观评分需要协调专业标注人员，对超过四万四千个样本进行多维度精细打分，确保评估数据的可靠性与一致性。

常用场景

经典使用场景

在语音编辑技术的研究领域，SE-Eval数据集为模型性能的自动化评估提供了标准化基准。该数据集通过涵盖真实编辑、复杂长句、环境背景、韵律表达和情感语音五大子领域，构建了一个多维度的评估框架。研究人员利用其提供的编辑前后音频样本及人类主观评分，能够系统地检验语音编辑模型在局部编辑质量、边界自然度以及上下文一致性等方面的表现，从而推动模型优化与比较研究。

解决学术问题

SE-Eval数据集针对语音编辑评估中传统文本到语音指标难以捕捉局部编辑质量的局限性，提供了首个大规模、多维度的人工标注基准。它解决了学术研究中缺乏统一评估标准的问题，通过引入整体质量、边界自然度及环境、韵律、情感一致性等五个核心指标，为量化模型性能提供了可靠依据。该数据集的建立促进了语音编辑领域评估方法的科学化与标准化，对模型迭代与理论发展具有深远影响。

衍生相关工作

SE-Eval数据集的发布催生了一系列围绕语音编辑评估的经典研究工作。基于其构建的基准，研究者们开发了多种自动化评估指标以逼近人类主观评分，并在扩散模型、自回归模型及端到端架构等主流语音编辑模型上进行了广泛的性能对比分析。这些工作不仅深化了对不同模型编辑能力边界与失败模式的理解，也推动了评估方法从单一维度向多维度、从粗粒度向细粒度的演进，形成了该领域新的研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集