listening_test_results
收藏Hugging Face2025-05-08 更新2025-05-09 收录
下载链接:
https://huggingface.co/datasets/ttsds/listening_test_results
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了针对20个合成语音系统的超过11,000个评分结果,用于TTSDS2研究。评分包括平均意见得分(MOS)、比较平均意见得分(CMOS)和说话人相似度平均意见得分(SMOS)。所有评分者都在调查中通过了三次注意力检查。
创建时间:
2025-05-08
原始信息汇总
数据集概述:TTSDS Listening Test Results
基本信息
- 许可证: MIT
- 任务类别: 音频分类
- 语言: 英语 (en)
- 标签: MOS, CMOS, SMOS, synthetic, audio, speech, subjective, ratings, mos_prediction
- 数据集名称: TTSDS Listening Test Results
- 数据规模: 10K<n<100K
数据集内容
- 数据来源: TTSDS2 研究收集的评分数据
- 评分数量: 超过11,000条
- 评分类型:
- MOS (Mean Opinion Score)
- CMOS (Comparative Mean Opinion Score)
- SMOS (Speaker Similarity Mean Opinion Score)
- 评估系统: 20个合成语音系统
- 标注者要求: 所有标注者均通过了调查中的三项注意力检查
搜集汇总
数据集介绍

构建方式
在语音合成系统评估领域,该数据集通过严谨的主观听力测试构建而成。研究团队邀请了经过筛选的参与者对20种合成语音系统进行评价,每位参与者均需通过三项注意力检查以确保数据可靠性。最终汇集了超过11,000条评分记录,涵盖MOS、CMOS和SMOS三类标准化评估指标,形成了具有统计显著性的主观评价数据库。
特点
该数据集的核心价值体现在其多维度的评分体系设计。不仅包含传统的平均意见分(MOS),还整合了对比平均意见分(CMOS)和说话人相似度评分(SMOS),能全面反映合成语音在自然度、对比优劣和音色保真度方面的表现。所有数据均来自通过质量控制的受试者,确保了评估结果的人类感知一致性,为语音合成研究提供了珍贵的基准数据。
使用方法
研究人员可借助该数据集开展合成语音质量的量化分析工作。通过解析三种评分维度的内在关联,能够建立客观指标与主观感知的映射模型。该数据适用于训练语音质量预测算法,验证新型合成系统的性能表现,亦可作为交叉验证基准推动语音合成技术的标准化发展。使用时应注重不同评分体系的互补性,结合具体研究目标进行多角度分析。
背景与挑战
背景概述
语音合成技术的演进催生了系统性能评估需求,TTSDS2研究团队于当代构建了listening_test_results数据集,聚焦合成语音质量的多维度主观评价。该数据集收录超过1.1万项评分,涵盖平均意见得分、对比意见得分及说话人相似度得分三类核心指标,通过严格注意力筛选机制保障标注者可靠性。作为语音合成领域的重要基准,其标准化评估框架为系统优化提供了量化依据,推动合成语音自然度与可信度的研究进程。
当前挑战
合成语音质量评估需应对主观感知量化难题,包括人类听觉对音色连贯性、韵律自然度的敏感度差异,以及跨语言文化背景下评分一致性维护。数据构建阶段面临标注成本控制与质量平衡矛盾,需设计三重注意力校验机制排除无效样本,同时处理多维度评分体系间的关联性解耦。大规模人工标注中个体偏好偏差的校准,以及合成系统间微小差异的可靠捕捉,共同构成该数据集的核心技术挑战。
常用场景
经典使用场景
在语音合成系统评估领域,该数据集作为主观质量评价的基准工具,广泛应用于比较不同合成算法的性能表现。研究者通过分析大规模人工评分数据,能够系统性地衡量语音自然度、清晰度及说话人相似性等关键指标,为模型优化提供量化依据。
衍生相关工作
基于该数据集衍生的经典研究包括端到端MOS预测模型构建与跨语言语音质量迁移学习。多项工作通过深度神经网络挖掘评分数据中的潜在规律,开发出无需人工参与的质量评估系统,这些成果已被整合进开源工具包如MOSNet,持续推动自动语音评估技术的发展。
数据集最近研究
最新研究方向
在语音合成质量评估领域,该数据集凭借其包含的MOS、CMOS和SMOS多维评分,正推动主观评价指标与客观预测模型的深度融合研究。前沿工作聚焦于利用深度学习架构,从合成音频特征中自动推断主观评分,以减少昂贵的人工听测成本。同时,该数据支持跨系统对比分析,助力揭示声学参数与感知质量间的隐式关联,为构建鲁棒性更强的生成式语音系统提供关键基准。
以上内容由遇见数据集搜集并总结生成



