VoxSim

Name: VoxSim
Creator: 韩国科学技术院
Published: 2024-07-26 12:27:13
License: 暂无描述

arXiv2024-07-26 更新2024-07-30 收录

下载链接：

https://mm.kaist.ac.kr/projects/voxsim

下载链接

链接失效反馈

官方服务：

资源简介：

VoxSim是由韩国科学技术院和三星研究共同创建的大规模感知语音相似度数据集，包含约70,000个相似度评分，来自超过1,000名说话者。数据集内容主要来源于VoxCeleb1，涵盖多种声学环境和多样的说话者特征。创建过程中，通过随机生成语音对并进行听觉测试来收集评分。VoxSim主要应用于自动语音评估领域，旨在解决合成语音的说话者相似度评估问题。

VoxSim is a large-scale perceptual speech similarity dataset jointly developed by the Korea Advanced Institute of Science and Technology (KAIST) and Samsung Research. It contains approximately 70,000 similarity ratings collected from over 1,000 speakers. The dataset is primarily derived from VoxCeleb1, covering diverse acoustic environments and a wide range of speaker characteristics. During its creation, similarity ratings were collected by randomly generating speech pairs and conducting auditory listening tests. VoxSim is mainly applied in the field of automatic speech assessment, aiming to address the issue of speaker similarity evaluation for synthesized speech.

提供机构：

韩国科学技术院

创建时间：

2024-07-26

搜集汇总

数据集介绍

构建方式

VoxSim数据集的构建方法是首先从VoxCeleb数据集中提取约41k个utterance pairs，然后通过12名评估者进行听音测试，收集了近70k个speaker similarity scores。数据集包含了1,251名speaker，涵盖了各种acoustic environments和contents。

特点

VoxSim数据集的特点包括：1) 大规模的数据集，包含了1,251名speaker和41,578个utterance pairs；2) 通过听音测试收集了69,409个speaker similarity scores，具有较高的数据可靠性；3) 数据集涵盖了各种acoustic environments和contents，具有较好的泛化性能。

使用方法

使用VoxSim数据集的方法包括：1) 作为训练集，用于训练speaker similarity prediction模型；2) 作为测试集，用于评估模型的性能；3) 可以通过fine-tuning方法，将模型在VoxSim上训练后，再在其它数据集上进行测试，以验证模型的泛化能力。

背景与挑战

背景概述

VoxSim数据集是由韩国科学技术高级研究所和三星研究共同创建的，旨在为语音合成技术的自动化评估提供支持。由于缺乏广泛的训练数据，语音合成技术中关于说话人声音相似性的研究相对较少。VoxSim数据集的创建填补了这一空白，它包含了从VoxCeleb数据集中生成的约41k个语音对，并通过听音测试收集了近70k个说话人相似度评分。VoxSim为说话人相似度预测模型的发展和应用提供了一个宝贵的资源，并展示了在VCC2018数据集上的泛化能力。VoxSim数据集的创建和发布对相关领域产生了深远的影响，为后续的研究和应用提供了重要的参考和基础。

当前挑战

VoxSim数据集的创建和应用面临着一系列挑战。首先，在说话人识别领域，尽管人工智能模型已经取得了超越人类能力的成果，但在评估合成语音的说话人相似度时，仍然存在明显的差距。其次，由于缺乏公开数据，开发自动化的说话人相似度评估模型面临困难。现有的数据集规模有限，且说话人多样性不足，这限制了模型在未见过的说话人上的泛化能力。此外，现有的评估方法主要依赖于主观评价，耗时且资源消耗大。为了解决这些问题，VoxSim数据集的创建采用了从VoxCeleb数据集中随机生成的约41k个语音对，并收集了近70k个说话人相似度评分。同时，通过听音测试的方式，确保了数据的可靠性和准确性。VoxSim数据集的创建和应用为解决上述挑战提供了重要的支持。

常用场景

经典使用场景

在语音合成技术的自动评估中，VoxSim数据集扮演了关键角色。该数据集通过提供大量的感知语音相似度评分，使得研究者能够开发并校准语音相似度预测模型，从而在语音合成领域取得了显著进展。

解决学术问题

VoxSim数据集解决了语音合成技术评估中的关键问题，即如何自动化评估合成语音与参考语音之间的相似度。该数据集通过收集大量的人类感知相似度评分，填补了这一研究领域的空白，为语音合成技术的发展提供了宝贵的资源。

衍生相关工作

基于VoxSim数据集的研究，衍生出了一系列经典的工作。例如，SVSNet模型是基于VoxSim数据集训练的，它通过分析原始波形来预测转换后的语音与自然语音之间的相似度。此外，Deja等人提出了一个自动化的方法来评估语音相似度，他们使用354个现代文本到语音系统合成语音样本，并通过听音测试收集MUSHRA评分来构建自己的数据集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集