five

CVSS|语音翻译数据集|多语言处理数据集

收藏
github2022-08-26 更新2024-05-31 收录
语音翻译
多语言处理
下载链接:
https://github.com/google-research-datasets/cvss
下载链接
链接失效反馈
资源简介:
CVSS是一个大规模多语言到英语的语音到语音翻译数据集,涵盖了21种语言到英语的句子级并行语音到语音翻译对。CVSS源自Common Voice语音数据集和CoVoST 2语音到文本翻译数据集,使用两种最先进的TTS模型进行合成。数据集包括两种版本的语音翻译,CVSS-C和CVSS-T,分别提供单一标准发音和源语音转换的发音。此外,CVSS还提供与翻译语音发音匹配的标准化翻译文本,适用于模型训练和标准化评估。

CVSS is a large-scale multilingual-to-English speech-to-speech translation dataset, encompassing sentence-level parallel speech-to-speech translation pairs from 21 languages to English. Derived from the Common Voice speech dataset and the CoVoST 2 speech-to-text translation dataset, CVSS utilizes two state-of-the-art TTS (Text-to-Speech) models for synthesis. The dataset includes two versions of speech translation, CVSS-C and CVSS-T, offering single standard pronunciation and source speech transformed pronunciation, respectively. Additionally, CVSS provides standardized translation texts that match the pronunciation of the translated speech, suitable for model training and standardized evaluation.
创建时间:
2022-01-05
原始信息汇总

数据集概述

名称: CVSS (A Massively Multilingual Speech-to-Speech Translation Corpus)

描述: CVSS是一个大规模的多语言到英语的语音到语音翻译语料库,包含21种语言到英语的句子级平行语音到语音翻译对。该数据集源自Common Voice语音语料库和CoVoST 2语音到文本翻译语料库。翻译语音使用基于LibriTTS语料库训练的两个最先进的TTS模型合成。

版本:

  • CVSS-C: 所有翻译语音使用单一规范发言人声音,具有高自然度和清洁度,以及一致的说话风格。
  • CVSS-T: 翻译语音声音从相应源语音转移,每对翻译在不同语言中保持相似声音。

数据量: 每个版本包含约1,900小时的语音数据。

额外提供: 与翻译语音匹配的标准化翻译文本,用于模型训练和标准化评估。

数据获取

数据可通过以下链接下载,每个链接包含train, dev, test目录的音频剪辑和train.tsv, dev.tsv, test.tsv文件的标准化翻译文本。

源语言 代码 CVSS-C CVSS-T
... ... link link
... ... link link
... ... link link

许可证

CVSS数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可证发布。

引用

当引用CVSS语料库时,请使用以下引用信息:

@inproceedings{jia2022cvss, title={{CVSS} Corpus and Massively Multilingual Speech-to-Speech Translation}, author={Jia, Ye and Tadmor Ramanovich, Michelle and Wang, Quan and Zen, Heiga}, booktitle={Proceedings of Language Resources and Evaluation Conference (LREC)}, pages={6691--6703}, year={2022} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CVSS数据集的构建基于大规模多语言语音到语音翻译的需求,整合了来自Common Voice的语音数据和CoVoST 2的语音到文本翻译数据。翻译语音通过两个先进的文本到语音合成模型生成,这些模型在LibriTTS语料库上进行了训练。CVSS数据集包含两个版本:CVSS-C和CVSS-T。CVSS-C使用单一标准发音人的语音,确保了语音的自然性和一致性;而CVSS-T则通过语音迁移技术,使翻译后的语音保留了源语音的音色特征。
特点
CVSS数据集的显著特点在于其多语言覆盖广泛,涵盖了21种语言到英语的语音翻译对。CVSS-C版本提供了高度自然且风格一致的合成语音,适合用户应用;CVSS-T版本则通过语音迁移技术,保留了源语音的音色,适合构建能够保持说话者声音特征的翻译模型。此外,数据集还提供了与语音匹配的规范化翻译文本,支持模型训练和标准化评估。
使用方法
使用CVSS数据集时,用户可以通过提供的链接下载包含训练、开发和测试集的音频文件及相应的规范化翻译文本。这些数据应与Common Voice的版本4音频文件配对使用。CVSS数据集也可通过Hugging Face平台获取。用户在训练和评估语音到语音翻译模型时,可以利用CVSS-C和CVSS-T的不同特性,分别优化语音质量和音色保留。
背景与挑战
背景概述
CVSS(Massively Multilingual Speech-to-Speech Translation Corpus)是一个大规模多语言语音到语音翻译语料库,涵盖了从21种语言到英语的句子级并行语音到语音翻译对。该数据集源自[Common Voice](https://commonvoice.mozilla.org/)语音语料库和[CoVoST 2](https://github.com/facebookresearch/covost)语音到文本翻译语料库,并利用了[LibriTTS](http://www.openslr.org/60/)语料库训练的两种最先进的TTS模型进行语音合成。CVSS的创建旨在推动多语言语音到语音翻译技术的发展,特别是通过提供高质量的合成语音和标准化翻译文本,为模型训练和评估提供了坚实的基础。
当前挑战
CVSS数据集在构建过程中面临了多项挑战。首先,多语言语音到语音翻译的复杂性要求模型能够处理不同语言之间的语音特征转换,同时保持语音的自然性和一致性。其次,语音合成的质量直接影响翻译结果的自然度,因此需要高保真的合成技术。此外,数据集的构建还需要解决多语言之间的语音风格一致性和语音转换的准确性问题。最后,标准化翻译文本的生成也是一个挑战,特别是在处理数字、货币、缩写等特殊词汇时,确保翻译文本与语音发音的匹配度至关重要。
常用场景
经典使用场景
CVSS数据集在多语言语音到语音翻译领域展现了其经典应用场景。该数据集通过提供从21种语言到英语的语音到语音翻译对,支持了跨语言语音翻译模型的训练与评估。CVSS-C版本通过单一标准语音合成,确保了语音的高自然度和一致性,适用于构建高质量的翻译语音模型。CVSS-T版本则通过源语音的语音风格转移,保留了源语音的特征,适用于需要保持说话者语音特征的翻译应用。
解决学术问题
CVSS数据集解决了多语言语音到语音翻译中的关键学术问题,包括语音合成质量、语音风格一致性以及跨语言语音特征保留等。通过提供高质量的合成语音和语音风格转移数据,CVSS促进了语音翻译模型的研究,特别是在自然语言处理和语音合成领域。其提供的标准化翻译文本进一步支持了模型的训练和评估,推动了语音翻译技术的进步。
衍生相关工作
CVSS数据集的发布催生了一系列相关研究工作,包括基于该数据集的语音翻译模型优化、语音风格转移技术的深入研究以及多语言语音合成模型的改进。研究者们利用CVSS数据集进行模型训练和评估,提出了多种创新方法,如改进的语音合成算法和跨语言语音特征提取技术。这些工作不仅提升了语音翻译的准确性和自然度,也为多语言语音处理领域的发展提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

历史航班准点率

航班在最近30天里准点程度的参数综合,反映了该航班可能延误的概率指数。具体计算方法:在最近30天内,航班降落时间比计划降落时间(航班时刻表上的时间)延迟半小时以上或航班取消的情况称为延误,将出现延误情况的航班数量除以30天内实际执飞的航班数量得出延误率,准点率=1-延误率。每日全面更新一次。

苏州大数据交易所 收录

Food101

构建Food Vision使用Food101数据集中的所有数据

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

animelist-dataset

一个基于JSON的动漫数据集,包含了最重要的元数据以及与其他多个动漫网站(如MAL、ANIDB、ANILIST、KITSU等)的交叉引用。数据集每周更新,涵盖了从10K到100K条记录的规模,主要语言为英语和日语,标签为'anime'。

huggingface 收录