西班牙语自动评估TTS质量的数据库

Name: 西班牙语自动评估TTS质量的数据库
Creator: 阿根廷国立二月三日大学、阿根廷圣安德烈斯大学认知神经科学中心、阿根廷计算机科学研究所、阿根廷布宜诺斯艾利斯大学计算机系
Published: 2025-07-02 23:24:47
License: 暂无描述

arXiv2025-07-02 更新2025-07-04 收录

下载链接：

https://github.com/asosawelford/TTS-dataset-analysis

下载链接

链接失效反馈

官方服务：

资源简介：

本研究开发了一个用于自动评估西班牙语文本语音转换系统（TTS）质量的数据库，旨在提高自然度预测模型的准确性。该数据集包含来自52个不同的TTS系统和人声的4,326个音频样本，据我们所知，这是西班牙语中第一个此类数据集。为了对音频进行标注，设计了一个基于ITU-T Rec. P.807标准的客观测试，并由92名参与者完成。此外，通过训练自动自然度预测系统验证了收集到的数据集的实用性。我们探索了两种方法：在为英语训练的现有模型上进行微调，以及在冻结的自监督语音模型之上训练小型下游网络。我们的模型在五分制的MOS尺度上实现了0.8的平均绝对误差。进一步的分析表明了开发的数据库的质量和多样性，以及其在西班牙语TTS研究中的潜在价值。

This study developed a database for automatically evaluating the quality of Spanish text-to-speech (TTS) systems, aiming to improve the accuracy of naturalness prediction models. The dataset contains 4,326 audio samples from 52 distinct TTS systems and human voices, and, to the best of our knowledge, this is the first such dataset in Spanish. To annotate the audio, an objective test based on the ITU-T Rec. P.807 standard was designed and completed by 92 participants. Additionally, the utility of the collected dataset was verified by training automatic naturalness prediction systems. We explored two approaches: fine-tuning an existing model trained for English, and training a small downstream network on top of a frozen self-supervised speech model. Our model achieved a Mean Absolute Error (MAE) of 0.8 on the 5-point Mean Opinion Score (MOS) scale. Further analysis demonstrates the quality and diversity of the developed database, as well as its potential value in Spanish TTS research.

提供机构：

阿根廷国立二月三日大学、阿根廷圣安德烈斯大学认知神经科学中心、阿根廷计算机科学研究所、阿根廷布宜诺斯艾利斯大学计算机系

创建时间：

2025-07-02

原始信息汇总

数据集概述

基本信息

数据集名称：es-TTS-subjective-naturalness
研究论文：INTERSPEECH 2025论文《A Dataset for Automatic Assessment of TTS Quality in Spanish》
数据集地址：https://huggingface.co/datasets/asosawelford/es-TTS-subjective-naturalness

数据集内容

用途：用于西班牙语TTS（文本到语音）质量自动评估
评估维度：主观自然度（subjective naturalness）

相关资源

源代码及附加结果：包含在TTS_dataset_analysis仓库中

搜集汇总

数据集介绍

构建方式

在语音合成技术迅猛发展的背景下，西班牙语自动评估TTS质量数据库的构建采用了多源数据采集策略。研究团队整合了52种不同TTS系统和真人发音的4,326个音频样本，覆盖多种合成技术和质量层次。通过随机选取阿根廷西班牙语语料库的100个短语作为基础文本，并运用声管长度扰动(VTLP)和Griffin-Lim相位重构算法进行数据增强，有效扩展了合成语音的质量变异范围。数据标注严格遵循ITU-T P.807标准，由92名西语母语者完成主观测评，采用五级平均意见得分(MOS)体系进行自然度评估，最终形成包含多层次质量标注的标准化数据集。

特点

该数据集作为首个专注于西班牙语TTS质量评估的基准资源，具有显著的学科填补价值。其核心特征体现在三方面：语音样本覆盖12种主流TTS系统和6种真人发音，包含阿根廷、卡斯蒂利亚和中美洲等地域方言变体；通过系统的数据增强技术，构建了从高度失真到接近真人发音的连续质量谱系；标注数据经过严格的信度检验，Krippendorff's Alpha系数达0.56，ICC(2,1)指标为0.68，确保证据的可靠性。特别值得注意的是，数据集在性别平衡性上表现优异，男女声样本各占50%，为消除算法偏见提供了基础保障。

使用方法

该数据集支持两种典型的应用范式：迁移学习场景下，研究者可基于预训练的NISQA模型进行微调，通过替换最后的回归层适配西班牙语特征，实验表明该方法能使平均绝对误差降至0.81；在自监督学习框架中，采用wav2vec 2.0的嵌入特征训练轻量级DenseMOS网络，仅需约10分钟即可完成模型训练。使用时应严格遵循论文划分的训练(3,139样本)、验证(393样本)和测试集(392样本)边界，特别注意测试集包含未见过的TTS系统和说话人，以验证模型泛化能力。所有音频文件均附带完整的元数据，包括合成系统、方言类型、说话人性别等关键属性，支持多维度的对比分析。

背景与挑战

背景概述

西班牙语自动评估TTS质量的数据库由Alejandro Sosa Welford和Leonardo Pepino等研究人员于2025年创建，旨在填补西班牙语语音合成系统自动评估领域的空白。该数据集包含4,326个来自52种不同TTS系统和真人语音的音频样本，并通过92名参与者的主观测试进行标注，遵循ITU-T Rec. P.807标准。作为首个专注于西班牙语的TTS质量评估数据集，它不仅为西班牙语语音合成研究提供了重要基准，还通过微调NISQA模型和探索自监督学习方法，显著提升了自然度预测的准确性。该数据集的发布推动了西班牙语语音合成技术的发展，并为跨语言语音质量评估研究提供了新的视角。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题方面，西班牙语TTS系统的自然度评估缺乏统一标准，且现有模型多基于英语或汉语数据训练，难以直接迁移至西班牙语场景；在构建过程中，数据采集需覆盖多样化的方言、性别和合成技术，而主观标注则需克服参与者评分策略差异大、疲劳效应以及数据分布不均衡等问题。此外，模型训练时对高分样本（如MOS接近4）的预测精度不足，反映了数据代表性仍需优化。

常用场景

经典使用场景

西班牙语自动评估TTS质量数据库在语音合成技术的研究中扮演了关键角色，尤其是在评估西班牙语TTS系统的自然度方面。该数据集通过包含来自52种不同TTS系统和真人语音的4,326个音频样本，为研究者提供了一个标准化的评估平台。其经典使用场景包括训练和验证自动自然度预测模型，如通过微调NISQA模型或基于自监督学习的DenseMOS模型，来预测语音样本的平均意见分数（MOS）。

实际应用

在实际应用中，该数据集被广泛用于优化虚拟助手、无障碍应用和娱乐媒体中的西班牙语TTS系统。例如，开发者可以利用数据集训练的模型实时评估合成语音的自然度，从而改进产品体验。数据集还为语音合成技术的商业化应用提供了质量保障，特别是在多方言和多性别语音的生成场景中。

衍生相关工作

该数据集衍生了一系列经典工作，包括微调NISQA模型以适配西班牙语任务，以及基于wav2vec 2.0的自监督学习模型DenseMOS的开发。这些工作不仅提升了西班牙语TTS评估的准确性，还为其他低资源语言的类似研究提供了方法论参考。此外，数据集的公开性促进了后续研究，如跨语言语音质量评估和多模态合成技术的探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集