five

CVSS|语音翻译数据集|多语言处理数据集

收藏
github2022-08-26 更新2024-05-31 收录
语音翻译
多语言处理
下载链接:
https://github.com/google-research-datasets/cvss
下载链接
链接失效反馈
资源简介:
CVSS是一个大规模多语言到英语的语音到语音翻译数据集,涵盖了21种语言到英语的句子级并行语音到语音翻译对。CVSS源自Common Voice语音数据集和CoVoST 2语音到文本翻译数据集,使用两种最先进的TTS模型进行合成。数据集包括两种版本的语音翻译,CVSS-C和CVSS-T,分别提供单一标准发音和源语音转换的发音。此外,CVSS还提供与翻译语音发音匹配的标准化翻译文本,适用于模型训练和标准化评估。

CVSS is a large-scale multilingual-to-English speech-to-speech translation dataset, encompassing sentence-level parallel speech-to-speech translation pairs from 21 languages to English. Derived from the Common Voice speech dataset and the CoVoST 2 speech-to-text translation dataset, CVSS utilizes two state-of-the-art TTS (Text-to-Speech) models for synthesis. The dataset includes two versions of speech translation, CVSS-C and CVSS-T, offering single standard pronunciation and source speech transformed pronunciation, respectively. Additionally, CVSS provides standardized translation texts that match the pronunciation of the translated speech, suitable for model training and standardized evaluation.
创建时间:
2022-01-05
原始信息汇总

数据集概述

名称: CVSS (A Massively Multilingual Speech-to-Speech Translation Corpus)

描述: CVSS是一个大规模的多语言到英语的语音到语音翻译语料库,包含21种语言到英语的句子级平行语音到语音翻译对。该数据集源自Common Voice语音语料库和CoVoST 2语音到文本翻译语料库。翻译语音使用基于LibriTTS语料库训练的两个最先进的TTS模型合成。

版本:

  • CVSS-C: 所有翻译语音使用单一规范发言人声音,具有高自然度和清洁度,以及一致的说话风格。
  • CVSS-T: 翻译语音声音从相应源语音转移,每对翻译在不同语言中保持相似声音。

数据量: 每个版本包含约1,900小时的语音数据。

额外提供: 与翻译语音匹配的标准化翻译文本,用于模型训练和标准化评估。

数据获取

数据可通过以下链接下载,每个链接包含train, dev, test目录的音频剪辑和train.tsv, dev.tsv, test.tsv文件的标准化翻译文本。

源语言 代码 CVSS-C CVSS-T
... ... link link
... ... link link
... ... link link

许可证

CVSS数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可证发布。

引用

当引用CVSS语料库时,请使用以下引用信息:

@inproceedings{jia2022cvss, title={{CVSS} Corpus and Massively Multilingual Speech-to-Speech Translation}, author={Jia, Ye and Tadmor Ramanovich, Michelle and Wang, Quan and Zen, Heiga}, booktitle={Proceedings of Language Resources and Evaluation Conference (LREC)}, pages={6691--6703}, year={2022} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CVSS数据集的构建基于大规模多语言语音到语音翻译的需求,整合了来自Common Voice的语音数据和CoVoST 2的语音到文本翻译数据。翻译语音通过两个先进的文本到语音合成模型生成,这些模型在LibriTTS语料库上进行了训练。CVSS数据集包含两个版本:CVSS-C和CVSS-T。CVSS-C使用单一标准发音人的语音,确保了语音的自然性和一致性;而CVSS-T则通过语音迁移技术,使翻译后的语音保留了源语音的音色特征。
特点
CVSS数据集的显著特点在于其多语言覆盖广泛,涵盖了21种语言到英语的语音翻译对。CVSS-C版本提供了高度自然且风格一致的合成语音,适合用户应用;CVSS-T版本则通过语音迁移技术,保留了源语音的音色,适合构建能够保持说话者声音特征的翻译模型。此外,数据集还提供了与语音匹配的规范化翻译文本,支持模型训练和标准化评估。
使用方法
使用CVSS数据集时,用户可以通过提供的链接下载包含训练、开发和测试集的音频文件及相应的规范化翻译文本。这些数据应与Common Voice的版本4音频文件配对使用。CVSS数据集也可通过Hugging Face平台获取。用户在训练和评估语音到语音翻译模型时,可以利用CVSS-C和CVSS-T的不同特性,分别优化语音质量和音色保留。
背景与挑战
背景概述
CVSS(Massively Multilingual Speech-to-Speech Translation Corpus)是一个大规模多语言语音到语音翻译语料库,涵盖了从21种语言到英语的句子级并行语音到语音翻译对。该数据集源自[Common Voice](https://commonvoice.mozilla.org/)语音语料库和[CoVoST 2](https://github.com/facebookresearch/covost)语音到文本翻译语料库,并利用了[LibriTTS](http://www.openslr.org/60/)语料库训练的两种最先进的TTS模型进行语音合成。CVSS的创建旨在推动多语言语音到语音翻译技术的发展,特别是通过提供高质量的合成语音和标准化翻译文本,为模型训练和评估提供了坚实的基础。
当前挑战
CVSS数据集在构建过程中面临了多项挑战。首先,多语言语音到语音翻译的复杂性要求模型能够处理不同语言之间的语音特征转换,同时保持语音的自然性和一致性。其次,语音合成的质量直接影响翻译结果的自然度,因此需要高保真的合成技术。此外,数据集的构建还需要解决多语言之间的语音风格一致性和语音转换的准确性问题。最后,标准化翻译文本的生成也是一个挑战,特别是在处理数字、货币、缩写等特殊词汇时,确保翻译文本与语音发音的匹配度至关重要。
常用场景
经典使用场景
CVSS数据集在多语言语音到语音翻译领域展现了其经典应用场景。该数据集通过提供从21种语言到英语的语音到语音翻译对,支持了跨语言语音翻译模型的训练与评估。CVSS-C版本通过单一标准语音合成,确保了语音的高自然度和一致性,适用于构建高质量的翻译语音模型。CVSS-T版本则通过源语音的语音风格转移,保留了源语音的特征,适用于需要保持说话者语音特征的翻译应用。
解决学术问题
CVSS数据集解决了多语言语音到语音翻译中的关键学术问题,包括语音合成质量、语音风格一致性以及跨语言语音特征保留等。通过提供高质量的合成语音和语音风格转移数据,CVSS促进了语音翻译模型的研究,特别是在自然语言处理和语音合成领域。其提供的标准化翻译文本进一步支持了模型的训练和评估,推动了语音翻译技术的进步。
衍生相关工作
CVSS数据集的发布催生了一系列相关研究工作,包括基于该数据集的语音翻译模型优化、语音风格转移技术的深入研究以及多语言语音合成模型的改进。研究者们利用CVSS数据集进行模型训练和评估,提出了多种创新方法,如改进的语音合成算法和跨语言语音特征提取技术。这些工作不仅提升了语音翻译的准确性和自然度,也为多语言语音处理领域的发展提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录