google/cvss

Name: google/cvss
Creator: google
Published: 2024-02-10 04:34:53
License: 暂无描述

Hugging Face2024-02-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/google/cvss

下载链接

链接失效反馈

官方服务：

资源简介：

CVSS是一个大规模多语言到英语的语音到语音翻译语料库，涵盖了21种语言到英语的句子级平行语音到语音翻译对。CVSS源自Common Voice语音语料库和CoVoST 2语音到文本翻译语料库。CVSS提供了两个版本的翻译语音：CVSS-C和CVSS-T。CVSS-C中的所有翻译语音均为单一标准说话者的声音，具有高自然度和一致性，适合用户面向的应用。CVSS-T中的翻译语音则从相应的源语音中转移了说话者的声音，适合构建在翻译语音时保留说话者声音的模型。此外，CVSS还提供了与翻译语音发音匹配的标准化翻译文本，可用于模型训练和标准化评估。

CVSS is a large-scale multilingual-to-English speech-to-speech translation corpus, covering sentence-level parallel speech-to-speech translation pairs from 21 languages into English. CVSS is derived from the Common Voice speech corpus and the CoVoST 2 speech-to-text translation corpus. CVSS provides two versions of translated speech: CVSS-C and CVSS-T. All translated speech in CVSS-C is generated by a single standard speaker, featuring high naturalness and consistency, making it suitable for user-facing applications. The translated speech in CVSS-T transfers the speaker's voice from the corresponding source speech, which is suitable for building models that preserve speaker identity during speech translation. Additionally, CVSS also provides standardized translated text that matches the pronunciation of the translated speech, which can be used for model training and standardized evaluation.

提供机构：

google

原始信息汇总

CVSS: A Massively Multilingual Speech-to-Speech Translation Corpus

概述

CVSS是一个涵盖21种语言到英语的句子级并行语音到语音翻译语料库。该数据集由Common Voice和CoVoST 2衍生而来，使用LibriTTS训练的两个最先进的TTS模型合成翻译语音。

数据集版本

CVSS-C: 所有翻译语音使用单一标准演讲者的声音，具有高自然度和清洁度，以及一致的演讲风格。
CVSS-T: 翻译语音的声音从相应的源语音转移而来，每个翻译对在不同语言中保持相似的声音。

数据集内容

除了翻译语音外，CVSS还提供与翻译语音发音匹配的标准化翻译文本，适用于模型训练和标准化评估。

数据集大小

两个版本的CVSS数据集每个约包含1,900小时的语音。

许可证

CVSS数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可证发布。

引用

当引用CVSS数据集时，请使用以下引用信息：

@inproceedings{jia2022cvss, title={{CVSS} Corpus and Massively Multilingual Speech-to-Speech Translation}, author={Jia, Ye and Tadmor Ramanovich, Michelle and Wang, Quan and Zen, Heiga}, booktitle={Proceedings of Language Resources and Evaluation Conference (LREC)}, pages={6691--6703}, year={2022} }

搜集汇总

数据集介绍

构建方式

在语音翻译研究领域，构建高质量的多语言语音到语音翻译数据集是推动技术发展的关键。CVSS数据集的构建巧妙地整合了现有资源，其源语音源自Common Voice语料库，而翻译文本则基于CoVoST 2的语音到文本翻译对。核心创新在于目标语音的生成：研究团队运用在LibriTTS语料库上训练的前沿文本到语音模型进行合成，从而创建了语音翻译输出。这一过程不仅确保了语音的自然度与清晰度，还通过两种不同的语音生成策略，形成了CVSS-C与CVSS-T两个特色版本，共同构成了覆盖21种语言至英语、总计约1900小时语音的大规模平行语料。

特点

CVSS数据集最显著的特征在于其大规模多语言覆盖与双版本并行设计。CVSS-C版本提供了单一标准发音人的高质量合成语音，确保了语音风格的高度一致性与纯净度，这为建模目标语音信号、生成适用于实际应用的高质量翻译语音提供了便利。CVSS-T版本则采用了语音转换技术，使翻译后的英语语音能够保留源语言说话者的声音特征，从而支持构建能够跨语言保持说话者音色的翻译模型。此外，数据集还提供了与合成语音发音相匹配的规范化翻译文本，涵盖了数字、货币、缩写等特殊情况的处理，为模型训练与标准化评估提供了重要支撑。

使用方法

为有效利用CVSS数据集进行语音到语音翻译模型的研发，研究者需结合多个数据源。目标语音及规范化翻译文本可直接通过Hugging Face的`datasets`库加载，指定所需语言对即可。源语音及对应的源文本则需要从Common Voice v4.0数据集中分别获取，并通过文件名与CVSS中的条目进行关联匹配。这种分离式加载方式要求用户在数据预处理阶段进行精确的对齐与合并。完成数据整合后，该数据集即可用于训练端到端的语音翻译模型，或分别优化语音识别、机器翻译与语音合成等子模块，其提供的双版本目标语音也为研究语音风格保持与翻译质量等不同维度的问题提供了直接对比的基础。

背景与挑战

背景概述

在语音技术迅猛发展的时代，多语言语音到语音翻译成为突破语言障碍、促进全球交流的关键研究方向。谷歌研究团队于2022年发布了CVSS语料库，这是一个大规模多语言至英语的语音到语音翻译数据集，源自Common Voice语音语料库和CoVoST 2语音到文本翻译语料库。该数据集涵盖了21种语言到英语的句子级平行翻译对，通过先进的TTS模型合成目标语音，旨在推动语音翻译模型的开发与应用，显著提升了多语言语音处理领域的资源丰富度与研究可行性。

当前挑战

CVSS数据集致力于解决多语言语音到语音翻译中的核心挑战，包括如何在保持高自然度与清晰度的同时，实现跨语言语音的风格一致性或说话人音色保留。在构建过程中，团队面临合成语音质量控制的复杂性，需确保CVSS-C版本的规范语音具有一致的说话风格，而CVSS-T版本则需精确实现源语音到目标语音的音色迁移，这涉及多语言语音对齐与合成技术的精细调优。此外，数据集的规模与语言多样性也带来了数据处理与标准化的挑战，需平衡不同语言间的数据代表性与质量统一。

常用场景

经典使用场景

在语音技术领域，CVSS数据集为大规模多语言语音到语音翻译研究提供了关键支持。该数据集通过整合Common Voice的源语音与合成的高质量目标语音，构建了覆盖21种语言至英语的平行语音翻译对。其经典应用场景在于训练端到端语音翻译模型，研究者可利用CVSS-C版本中具有一致音色和清晰度的合成语音，简化目标语音建模过程，从而专注于提升翻译的准确性与流畅性。

解决学术问题

CVSS数据集有效应对了多语言语音翻译中数据稀缺与质量不均的学术挑战。通过提供大规模、高质量的平行语音语料，它支持研究者探索语音翻译模型的跨语言泛化能力与鲁棒性。该数据集的意义在于推动了语音翻译领域从文本中介模式向直接语音转换的范式演进，为保留语音特征、实现自然对话翻译奠定了数据基础，促进了多模态语言处理技术的理论发展。

衍生相关工作

基于CVSS数据集，学术界衍生了一系列经典研究工作，主要集中在端到端语音翻译模型的优化与多语言语音合成技术的融合。例如，研究者利用CVSS-C的高质量合成语音训练了多种神经翻译架构，提升了翻译的准确度与语音自然度；同时，CVSS-T版本启发了语音身份保持翻译模型的发展，推动了语音转换与翻译任务的联合建模，相关成果已在国际会议与期刊中广泛发表。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集