QualiSpeech

Name: QualiSpeech
Creator: 清华大学, 北京大学, Academia Sinica, 国立信息学研究所
Published: 2025-03-26 15:32:20
License: 暂无描述

arXiv2025-03-26 更新2025-03-28 收录

下载链接：

https://huggingface.co/datasets/tsinghuaee/QualiSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

QualiSpeech是一个全面的低层次语音质量评估数据集，包含11个关键方面的详细自然语言评论，旨在通过丰富的注释来桥接自然语言反馈与语音质量评估之间的差距。该数据集由清华大学电子工程系创建，涵盖了人工合成语音和真实世界场景，提供了7个维度的数值评分和4个方面的具体描述。数据集通过综合注释过程生成，包括听众对语音样本的低层次特征进行评分和描述，以及利用GPT生成的自然语言描述。QualiSpeech旨在推动开发能够有效区分合成语音和真实语音的通用语音质量评估模型。

QualiSpeech is a comprehensive low-level speech quality assessment dataset containing detailed natural language reviews across 11 key aspects, which aims to bridge the gap between natural language feedback and speech quality assessment via rich annotations. Developed by the Department of Electronic Engineering, Tsinghua University, this dataset covers both synthetic speech and real-world scenarios, providing numerical scores across 7 dimensions and specific descriptions for 4 aspects. It is constructed through a comprehensive annotation pipeline, which includes listeners scoring and describing the low-level features of speech samples, as well as natural language descriptions generated via GPT. QualiSpeech aims to facilitate the development of universal speech quality assessment models that can effectively differentiate between synthetic and real-world speech.

提供机构：

清华大学, 北京大学, Academia Sinica, 国立信息学研究所

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

QualiSpeech数据集通过整合多源语音样本构建而成，涵盖合成语音（BVCC数据集及10种现代TTS系统生成样本）和真实语音（GigaSpeech、NISQA LIVE等），并采用三阶段标注流程：首先由听评人对11项低层语音特征进行数值评分和文本描述，随后利用GPT生成链式推理的自然语言评述，最终由人工校验修正逻辑谬误与信息缺失。数据集特别引入20%的合成语音与DNS Challenge噪声混合样本以增强多样性，所有标注均遵循国际标准MOS评分体系。

特点

该数据集首创性地将传统数值评分与自然语言描述相结合，覆盖噪声类型及时域定位（如'1.5~2.5秒出现电流杂音'）、失真特征、非自然停顿等11个细粒度维度，并包含对语音年龄/性别/音色的感知描述。其独特价值在于提供推理式质量评估（如'整体评分较低源于背景噪声侵入性及高聆听负荷'），且通过平衡合成/真实语音比例（49% vs 51%）确保模型泛化能力。标注示例显示噪声时间定位IoU达0.8，失真类型描述相关性评分0.71。

使用方法

研究者可通过HuggingFace平台获取数据集，按标准流程加载音频及JSON格式标注。使用建议包括：1）基于7维度评分训练MOS预测模型；2）利用文本描述微调听觉大语言模型（如SALMONN-7B）实现多角度质量生成；3）参与QualiSpeech Benchmark评估模型低层语音理解能力。实验表明，模型在噪声/失真时间定位任务表现优异（IoU 0.75-0.85），但需注意自然度等主观维度预测仍具挑战性（PCC 0.42-0.57）。

背景与挑战

背景概述

QualiSpeech是由清华大学、字节跳动、中央研究院及国立情报学研究所的研究团队于2025年推出的创新性语音质量评估数据集。该数据集突破了传统基于平均意见得分（MOS）的评估范式，首次引入自然语言描述与推理机制，涵盖11项语音质量维度的细粒度标注。其核心研究目标在于解决语音合成系统与通信网络场景中失真检测的评估难题，通过融合噪声类型、时间特性等低层声学特征与上下文推理，为听觉大语言模型（LLMs）的语音理解能力提供基准测试平台。该数据集的构建整合了BVCC、NISQA等多源数据，平衡了合成语音与真实语音样本的分布，显著推动了语音质量评估从数值评分向可解释性分析的范式转变。

当前挑战

QualiSpeech面临的挑战主要体现在两个层面：在领域问题层面，传统MOS评分无法揭示质量评估的内在逻辑，而自然语言描述需同时解决噪声类型识别、失真时间定位等低层声学特征分析与语义推理的多模态融合难题；在构建过程中，需克服合成语音与真实语音的域差异问题，协调7项数值评分与4项描述性标注的复杂标注体系，并通过GPT生成与人工校验相结合的流程确保自然语言描述的准确性与逻辑连贯性。此外，听觉LLMs在低层语音感知任务中的表现欠佳，其生成的描述存在时间区间预测偏差（IoU约0.8）和主观维度（如自然度）评估不稳定等问题，凸显了跨模态对齐的技术挑战。

常用场景

经典使用场景

在语音合成与通信网络领域，QualiSpeech数据集通过自然语言描述与多维评分相结合的方式，为语音质量评估提供了创新范式。其典型应用场景包括训练听觉大语言模型（LLMs）生成细粒度质量报告，例如在分析合成语音时准确识别特定时间段内的电流噪声或机械失真，弥补了传统平均意见分（MOS）仅提供单一数值的局限性。数据集包含11个低层语音特征的标注，使得模型能同时评估背景噪声、连续性、自然度等指标，为语音增强系统的迭代优化提供定向反馈。

衍生相关工作

基于QualiSpeech衍生的代表性工作包括：SALMONN-7B模型的低层语音理解能力增强方案，通过LoRA微调在失真分类任务中实现0.595 PCC；Qwen-Audio-Chat在噪声类型描述任务中达到0.665相关性评分。数据集还催生了QualiSpeech Benchmark，首次系统评估听觉LLMs在七维语音质量指标上的表现，揭示出现有模型对自然度（0.148 PCC）等主观指标预测的不足。相关研究进一步探索了文本LLMs结合语音编码器的跨模态推理框架，为质量评估的可解释性研究开辟新路径。

数据集最近研究