CVSS|语音翻译数据集|多语言处理数据集
收藏数据集概述
名称: CVSS (A Massively Multilingual Speech-to-Speech Translation Corpus)
描述: CVSS是一个大规模的多语言到英语的语音到语音翻译语料库,包含21种语言到英语的句子级平行语音到语音翻译对。该数据集源自Common Voice语音语料库和CoVoST 2语音到文本翻译语料库。翻译语音使用基于LibriTTS语料库训练的两个最先进的TTS模型合成。
版本:
- CVSS-C: 所有翻译语音使用单一规范发言人声音,具有高自然度和清洁度,以及一致的说话风格。
- CVSS-T: 翻译语音声音从相应源语音转移,每对翻译在不同语言中保持相似声音。
数据量: 每个版本包含约1,900小时的语音数据。
额外提供: 与翻译语音匹配的标准化翻译文本,用于模型训练和标准化评估。
数据获取
数据可通过以下链接下载,每个链接包含train
, dev
, test
目录的音频剪辑和train.tsv
, dev.tsv
, test.tsv
文件的标准化翻译文本。
许可证
CVSS数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可证发布。
引用
当引用CVSS语料库时,请使用以下引用信息:
@inproceedings{jia2022cvss, title={{CVSS} Corpus and Massively Multilingual Speech-to-Speech Translation}, author={Jia, Ye and Tadmor Ramanovich, Michelle and Wang, Quan and Zen, Heiga}, booktitle={Proceedings of Language Resources and Evaluation Conference (LREC)}, pages={6691--6703}, year={2022} }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录