five

QualiSpeech|语音质量评估数据集|自然语言处理数据集

收藏
arXiv2025-03-26 更新2025-03-28 收录
语音质量评估
自然语言处理
下载链接:
https://huggingface.co/datasets/tsinghuaee/QualiSpeech
下载链接
链接失效反馈
资源简介:
QualiSpeech是一个全面的低层次语音质量评估数据集,包含11个关键方面的详细自然语言评论,旨在通过丰富的注释来桥接自然语言反馈与语音质量评估之间的差距。该数据集由清华大学电子工程系创建,涵盖了人工合成语音和真实世界场景,提供了7个维度的数值评分和4个方面的具体描述。数据集通过综合注释过程生成,包括听众对语音样本的低层次特征进行评分和描述,以及利用GPT生成的自然语言描述。QualiSpeech旨在推动开发能够有效区分合成语音和真实语音的通用语音质量评估模型。
提供机构:
清华大学, 北京大学, Academia Sinica, 国立信息学研究所
创建时间:
2025-03-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
QualiSpeech数据集通过整合多源语音样本构建而成,涵盖合成语音(BVCC数据集及10种现代TTS系统生成样本)和真实语音(GigaSpeech、NISQA LIVE等),并采用三阶段标注流程:首先由听评人对11项低层语音特征进行数值评分和文本描述,随后利用GPT生成链式推理的自然语言评述,最终由人工校验修正逻辑谬误与信息缺失。数据集特别引入20%的合成语音与DNS Challenge噪声混合样本以增强多样性,所有标注均遵循国际标准MOS评分体系。
特点
该数据集首创性地将传统数值评分与自然语言描述相结合,覆盖噪声类型及时域定位(如'1.5~2.5秒出现电流杂音')、失真特征、非自然停顿等11个细粒度维度,并包含对语音年龄/性别/音色的感知描述。其独特价值在于提供推理式质量评估(如'整体评分较低源于背景噪声侵入性及高聆听负荷'),且通过平衡合成/真实语音比例(49% vs 51%)确保模型泛化能力。标注示例显示噪声时间定位IoU达0.8,失真类型描述相关性评分0.71。
使用方法
研究者可通过HuggingFace平台获取数据集,按标准流程加载音频及JSON格式标注。使用建议包括:1)基于7维度评分训练MOS预测模型;2)利用文本描述微调听觉大语言模型(如SALMONN-7B)实现多角度质量生成;3)参与QualiSpeech Benchmark评估模型低层语音理解能力。实验表明,模型在噪声/失真时间定位任务表现优异(IoU 0.75-0.85),但需注意自然度等主观维度预测仍具挑战性(PCC 0.42-0.57)。
背景与挑战
背景概述
QualiSpeech是由清华大学、字节跳动、中央研究院及国立情报学研究所的研究团队于2025年推出的创新性语音质量评估数据集。该数据集突破了传统基于平均意见得分(MOS)的评估范式,首次引入自然语言描述与推理机制,涵盖11项语音质量维度的细粒度标注。其核心研究目标在于解决语音合成系统与通信网络场景中失真检测的评估难题,通过融合噪声类型、时间特性等低层声学特征与上下文推理,为听觉大语言模型(LLMs)的语音理解能力提供基准测试平台。该数据集的构建整合了BVCC、NISQA等多源数据,平衡了合成语音与真实语音样本的分布,显著推动了语音质量评估从数值评分向可解释性分析的范式转变。
当前挑战
QualiSpeech面临的挑战主要体现在两个层面:在领域问题层面,传统MOS评分无法揭示质量评估的内在逻辑,而自然语言描述需同时解决噪声类型识别、失真时间定位等低层声学特征分析与语义推理的多模态融合难题;在构建过程中,需克服合成语音与真实语音的域差异问题,协调7项数值评分与4项描述性标注的复杂标注体系,并通过GPT生成与人工校验相结合的流程确保自然语言描述的准确性与逻辑连贯性。此外,听觉LLMs在低层语音感知任务中的表现欠佳,其生成的描述存在时间区间预测偏差(IoU约0.8)和主观维度(如自然度)评估不稳定等问题,凸显了跨模态对齐的技术挑战。
常用场景
经典使用场景
在语音合成与通信网络领域,QualiSpeech数据集通过自然语言描述与多维评分相结合的方式,为语音质量评估提供了创新范式。其典型应用场景包括训练听觉大语言模型(LLMs)生成细粒度质量报告,例如在分析合成语音时准确识别特定时间段内的电流噪声或机械失真,弥补了传统平均意见分(MOS)仅提供单一数值的局限性。数据集包含11个低层语音特征的标注,使得模型能同时评估背景噪声、连续性、自然度等指标,为语音增强系统的迭代优化提供定向反馈。
衍生相关工作
基于QualiSpeech衍生的代表性工作包括:SALMONN-7B模型的低层语音理解能力增强方案,通过LoRA微调在失真分类任务中实现0.595 PCC;Qwen-Audio-Chat在噪声类型描述任务中达到0.665相关性评分。数据集还催生了QualiSpeech Benchmark,首次系统评估听觉LLMs在七维语音质量指标上的表现,揭示出现有模型对自然度(0.148 PCC)等主观指标预测的不足。相关研究进一步探索了文本LLMs结合语音编码器的跨模态推理框架,为质量评估的可解释性研究开辟新路径。
数据集最近研究
最新研究方向
近年来,QualiSpeech数据集在语音质量评估领域引起了广泛关注,特别是在结合自然语言推理和描述的语音质量评估方法上。该数据集通过提供11个关键方面的详细自然语言评论,弥补了传统数值评分方法在解释性和细节上的不足。前沿研究方向包括利用听觉大型语言模型(LLMs)进行低层次语音理解能力的评估,以及探索自然语言描述在提升语音质量评估准确性和可靠性方面的潜力。此外,QualiSpeech Benchmark的提出为评估听觉LLMs在低层次语音感知任务中的表现提供了标准化平台,推动了语音质量评估技术的进一步发展。这一数据集不仅在语音合成系统的性能评估中具有重要应用,还为通信网络中的失真识别提供了新的研究视角。
相关研究论文
  • 1
    QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions清华大学, 北京大学, Academia Sinica, 国立信息学研究所 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录