five

covost2

收藏
Hugging Face2024-07-25 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/fixie-ai/covost2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个语言对的配置,主要用于语音转文本和翻译任务。每个配置包含特征如客户端ID、文件、音频(采样率为16000 Hz)、句子、翻译和ID。数据集分为验证和测试等部分,每个部分详细说明了示例数量和字节数。数据集是CoVoST2数据集的部分版本,包含音频数据以方便使用和样本浏览。

This dataset includes configurations for multiple language pairs, primarily designed for speech-to-text and translation tasks. Each configuration encompasses features such as client ID, file, audio (sampled at 16000 Hz), sentence, translation, and ID. The dataset is divided into subsets like validation and test sets, with the number of samples and total byte size specified for each subset. This is a partial version of the CoVoST2 dataset, which includes audio data to facilitate usage and sample browsing.
提供机构:
Fixie.ai
创建时间:
2024-07-17
原始信息汇总

数据集概述

数据集配置

配置名称:en_ar

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758475640.66
      • num_examples: 15531
    • test:
      • num_bytes: 716354369.191
      • num_examples: 15531
  • 下载大小:1456416323
  • 数据集大小:1474830009.8509998

配置名称:en_ca

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758119795.66
      • num_examples: 15531
    • test:
      • num_bytes: 716030527.191
      • num_examples: 15531
  • 下载大小:1456295258
  • 数据集大小:1474150322.8509998

配置名称:en_cy

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758090029.66
      • num_examples: 15531
    • test:
      • num_bytes: 716033728.191
      • num_examples: 15531
  • 下载大小:1456264376
  • 数据集大小:1474123757.8509998

配置名称:en_de

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758167181.66
      • num_examples: 15531
    • test:
      • num_bytes: 716096984.191
      • num_examples: 15531
  • 下载大小:1456385896
  • 数据集大小:1474264165.8509998

配置名称:en_et

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758005635.66
      • num_examples: 15531
    • test:
      • num_bytes: 715950609.191
      • num_examples: 15531
  • 下载大小:1456219392
  • 数据集大小:1473956244.8509998

配置名称:en_fa

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758618985.66
      • num_examples: 15531
    • test:
      • num_bytes: 716510917.191
      • num_examples: 15531
  • 下载大小:1456518800
  • 数据集大小:1475129902.8509998

配置名称:en_id

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • train:
      • num_bytes: 14098627451.18
      • num_examples: 289430
    • validation:
      • num_bytes: 718144327.808
      • num_examples: 15531
    • test:
      • num_bytes: 728802322.301
      • num_examples: 15531
  • 下载大小:13813201260
  • 数据集大小:15545574101.289001

配置名称:en_ja

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 718409304.808
      • num_examples: 15531
    • test:
      • num_bytes: 729050991.301
      • num_examples: 15531
  • 下载大小:1456435063
  • 数据集大小:1447460296.109

配置名称:en_lv

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 718152571.808
      • num_examples: 15531
    • test:
      • num_bytes: 728792572.301
      • num_examples: 15531
  • 下载大小:1456362719
  • 数据集大小:1446945144.109

配置名称:en_mn

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758888494.66
      • num_examples: 15531
    • test:
      • num_bytes: 716700933.191
      • num_examples: 15531
  • 下载大小:1456774887
  • 数据集大小:1475589427.8509998

配置名称:en_sl

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758033749.66
      • num_examples: 15531
    • test:
      • num_bytes: 715945105.191
      • num_examples: 15531
  • 下载大小:1456237789
  • 数据集大小:1473978854.8509998

配置名称:en_sv-SE

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758041368.66
      • num_examples: 15531
    • test:
      • num_bytes: 715987339.191
      • num_examples: 15531
  • 下载大小:1456200898
  • 数据集大小:1474028707.8509998

配置名称:en_ta

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • train:
      • num_bytes: 14135489205.18
      • num_examples: 289430
    • validation:
      • num_bytes: 720191394.808
      • num_examples: 15531
    • test:
      • num_bytes: 730578783.301
      • num_examples: 15531
  • 下载大小:13825121271
  • 数据集大小:15586259383.289001

配置名称:en_tr

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 758110072.66
      • num_examples: 15531
    • test:
      • num_bytes: 716026571.191
      • num_examples: 15531
  • 下载大小:1456314203
  • 数据集大小:1474136643.8509998

配置名称:en_zh-CN

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 757930781.66
      • num_examples: 15531
    • test:
      • num_bytes: 715895108.191
      • num_examples: 15531
  • 下载大小:1456153400
  • 数据集大小:1473825889.8509998

配置名称:es_en

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 630615357.241
      • num_examples: 13221
    • test:
      • num_bytes: 666447063.067
      • num_examples: 13221
    • train:
      • num_bytes: 3769457359.8
      • num_examples: 79015
  • 下载大小:4531969416
  • 数据集大小:5066519780.108

配置名称:fr_en

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 632191608.84
      • num_examples: 14760
    • test:
      • num_bytes: 698178059.08
      • num_examples: 14760
    • train:
      • num_bytes: 8128016830.77
      • num_examples: 207374
  • 下载大小:8900934523
  • 数据集大小:9458386498.69

配置名称:zh-CN_en

  • 特征
    • client_id: string
    • file: string
    • audio:
      • sampling_rate: 16000
    • sentence: string
    • translation: string
    • id: string
  • 分割
    • validation:
      • num_bytes: 231018998.33
      • num_examples: 4843
    • test:
      • num_bytes: 243850956.45
      • num_examples: 4898
    • train:
      • num_bytes: 341425113.6
      • num_examples: 7085
  • 下载大小:766660661
  • 数据集大小:816295068.38

数据文件路径

配置名称:en_ar

  • 数据文件
    • validation: en_ar/validation-*
    • test: en_ar/test-*

配置名称:en_ca

  • 数据文件
    • validation: en_ca/validation-*
    • test: en_ca/test-*

配置名称:en_cy

  • 数据文件
    • validation: en_cy/validation-*
    • test: en_cy/test-*

配置

搜集汇总
数据集介绍
main_image_url
构建方式
Covost2数据集是一个多语言语音翻译数据集,涵盖了多种语言对的语音和文本数据。该数据集的构建基于Common Voice项目,通过众包方式收集了大量不同语言的语音样本,并在此基础上进行了翻译标注。每个语言对的语音数据均以16kHz的采样率存储,并配有对应的文本句子及其翻译。数据集被划分为训练集、验证集和测试集,以确保模型训练和评估的有效性。
特点
Covost2数据集的特点在于其广泛的语言覆盖范围,涵盖了从阿拉伯语到中文的多种语言对。每个语言对的数据量较大,确保了模型训练的充分性。数据集中每个样本包含音频文件、原始句子及其翻译,且音频文件以16kHz的采样率存储,保证了语音数据的质量。此外,数据集的结构清晰,便于研究人员快速加载和使用。
使用方法
Covost2数据集主要用于多语言语音翻译任务的研究与开发。研究人员可以通过加载数据集中的音频和文本数据,训练端到端的语音翻译模型。数据集提供了训练集、验证集和测试集,便于模型的训练、调优和评估。使用该数据集时,可以通过HuggingFace平台直接下载并加载数据,结合现有的深度学习框架进行模型开发。
背景与挑战
背景概述
Covost2数据集是一个多语言语音翻译数据集,旨在推动语音到文本翻译领域的研究。该数据集由多个语言对组成,涵盖了从阿拉伯语到中文等多种语言的语音和文本数据。Covost2的创建源于对多语言语音翻译技术的需求,特别是在跨语言沟通和信息获取方面的应用。该数据集由多个研究机构和团队共同开发,旨在为语音翻译模型提供高质量的标注数据,推动自然语言处理和语音识别领域的技术进步。Covost2的发布为研究人员提供了一个标准化的基准,促进了多语言语音翻译模型的开发与评估。
当前挑战
Covost2数据集面临的挑战主要集中在两个方面。首先,语音到文本翻译任务本身具有较高的复杂性,尤其是在处理多语言场景时,语音的多样性、口音差异以及背景噪声等因素都会对翻译质量产生显著影响。其次,数据集的构建过程中,如何确保不同语言对的语音和文本数据的对齐质量是一个关键问题。由于不同语言的语法结构和表达方式差异较大,如何准确地进行语音转录和翻译标注,尤其是在低资源语言上,仍然是一个技术难题。此外,数据集的规模和质量平衡也是一个挑战,如何在保证数据多样性的同时,确保每个语言对的数据量足够支持模型训练,是构建过程中需要解决的核心问题。
常用场景
经典使用场景
Covost2数据集广泛应用于语音翻译领域,特别是在多语言语音到文本的转换任务中。该数据集通过提供多种语言的音频及其对应的文本翻译,为研究人员提供了一个丰富的资源,用于训练和评估语音翻译模型。其经典使用场景包括跨语言语音识别、语音翻译系统的开发与优化,以及多语言语音合成的研究。
实际应用
在实际应用中,Covost2数据集被广泛用于开发多语言语音翻译系统,如实时语音翻译工具、多语言语音助手等。这些系统在跨语言交流、国际会议、旅游等领域具有重要应用价值。此外,该数据集还被用于教育领域,帮助开发多语言学习工具,提升语言学习效率。
衍生相关工作
基于Covost2数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了基于Transformer的语音翻译模型,显著提升了翻译质量。此外,该数据集还催生了多语言语音合成技术的研究,推动了语音生成领域的发展。这些工作不仅丰富了语音翻译的理论基础,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作