five

facebook/covost2

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/facebook/covost2
下载链接
链接失效反馈
官方服务:
资源简介:
CoVoST 2 是一个大规模的多语言语音翻译语料库,涵盖了从21种语言到英语以及从英语到15种语言的翻译。该数据集使用Mozilla的开源Common Voice数据库创建,包含了2,900小时的语音数据。数据集设计用于语音到文本的翻译任务,常用的评估指标是BLEU分数。数据集包含多种语言的音频文件、转录文本和翻译文本。

CoVoST 2 is a large-scale multilingual speech translation corpus covering translations from 21 languages to English and from English to 15 languages. Developed using Mozilla's open-source Common Voice database, it contains 2,900 hours of speech data. This dataset is designed for speech-to-text translation tasks, and the commonly used evaluation metric is the BLEU score. The dataset includes audio files, transcriptions, and translated texts in multiple languages.
提供机构:
facebook
原始信息汇总

数据集概述

基本信息

  • 数据集名称: CoVoST 2
  • 语言: 包含21种语言的语音数据,具体包括阿拉伯语、加泰罗尼亚语、中文、威尔士语、荷兰语、英语、爱沙尼亚语、法语、德语、印度尼西亚语、意大利语、日语、拉脱维亚语、蒙古语、波斯语、葡萄牙语、俄语、斯洛文尼亚语、西班牙语、瑞典语、土耳其语。
  • 许可证: CC-BY-NC-4.0
  • 多语言性: 多语言
  • 数据集大小: 100K<n<1M
  • 源数据集: 扩展自Common Voice
  • 任务类别: 自动语音识别

数据结构

特征

  • client_id: 字符串类型
  • file: 字符串类型
  • sentence: 字符串类型
  • translation: 字符串类型
  • id: 字符串类型

数据分割

  • 训练集: 示例数量和字节数因语言对而异,范围从1,782到289,430个示例,字节数从808,508到146,318,684字节。
  • 验证集: 示例数量和字节数因语言对而异,范围从384到15,531个示例,字节数从150,428到7,944,020字节。
  • 测试集: 示例数量和字节数因语言对而异,范围从360到15,531个示例,字节数从115,414到7,411,400字节。

下载和数据集大小

  • 下载大小: 因语言对而异,范围从189,710字节到30,037,790字节。
  • 数据集大小: 因语言对而异,范围从883,811字节到161,674,104字节。

配置信息

数据集包含多个配置,每个配置对应一个语言对,例如:

  • en_de: 英语到德语
  • en_tr: 英语到土耳其语
  • en_fa: 英语到波斯语
  • fr_en: 法语到英语
  • de_en: 德语到英语
  • es_en: 西班牙语到英语
  • ca_en: 加泰罗尼亚语到英语
  • it_en: 意大利语到英语
  • ru_en: 俄语到英语
  • zh-CN_en: 中文到英语
  • pt_en: 葡萄牙语到英语
  • fa_en: 波斯语到英语
  • et_en: 爱沙尼亚语到英语
  • mn_en: 蒙古语到英语
  • nl_en: 荷兰语到英语
  • tr_en: 土耳其语到英语
  • ar_en: 阿拉伯语到英语
  • sv-SE_en: 瑞典语到英语
  • lv_en: 拉脱维亚语到英语
  • sl_en: 斯洛文尼亚语到英语
  • ta_en: 泰米尔语到英语
  • ja_en: 日语到英语
  • id_en: 印度尼西亚语到英语
  • cy_en: 威尔士语到英语

每个配置包含训练集、验证集和测试集的具体数量和字节数。

搜集汇总
数据集介绍
main_image_url
构建方式
CoVoST 2数据集的构建基于Mozilla的开源项目Common Voice,这是一个由众包语音录音组成的数据库。该数据集涵盖了21种语言到英语以及英语到15种语言的翻译。通过专家生成和众包相结合的方式,收集了大量的语音数据,并进行了高质量的标注。数据集的构建过程确保了语音与文本之间的精确对应,从而为语音翻译任务提供了丰富的训练资源。
特点
CoVoST 2数据集的一个显著特点是其多语言覆盖范围广泛,包括但不限于法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语、中文、威尔士语、加泰罗尼亚语、斯洛文尼亚语、爱沙尼亚语、印度尼西亚语、阿拉伯语、泰米尔语、葡萄牙语、拉脱维亚语和日语。此外,数据集的规模庞大,包含2900小时的语音数据,为语音翻译模型的训练提供了充足的数据支持。
使用方法
CoVoST 2数据集主要用于语音翻译任务,模型通过接收一种语言的音频文件,并将其转录为另一种语言的书面文本。使用该数据集时,研究者可以利用提供的音频文件、转录文本及其翻译,进行模型的训练和评估。常见的评估指标包括BLEU分数,以衡量翻译质量。数据集的结构清晰,便于研究者快速上手,并进行相关实验和研究。
背景与挑战
背景概述
CoVoST 2数据集是由Facebook Research团队创建的一个大规模多语言语音翻译语料库,涵盖了21种语言到英语以及英语到15种语言的翻译。该数据集基于Mozilla的开源Common Voice数据库,该数据库收集了众包的语音录音。CoVoST 2数据集包含了2900小时的语音数据,旨在推动语音翻译技术的发展。主要研究人员包括Changhan Wang、Juan Miguel Pino和Jiatao Gu,他们的工作显著提升了多语言语音翻译的准确性和效率,对语音识别和自然语言处理领域产生了深远影响。
当前挑战
CoVoST 2数据集在构建过程中面临多重挑战。首先,多语言语音数据的收集和标注需要高度的专业性和时间成本,确保数据的质量和多样性是一大难题。其次,不同语言之间的语音特征和语法结构差异巨大,如何设计有效的模型来处理这些差异是一个技术挑战。此外,数据集的规模和复杂性要求高效的计算资源和算法优化,以确保模型训练的效率和效果。这些挑战不仅推动了语音翻译技术的发展,也为相关领域的研究提供了宝贵的资源和经验。
常用场景
经典使用场景
CoVoST 2数据集的经典使用场景主要集中在多语言语音翻译任务上。研究者们利用该数据集训练和评估语音到文本翻译模型,这些模型能够将多种语言的语音转换为英语或其他目标语言的文本。通过这种方式,CoVoST 2为跨语言语音识别和翻译提供了丰富的资源,推动了语音翻译技术的发展。
衍生相关工作
基于CoVoST 2数据集,研究者们开展了多项相关工作,包括改进语音翻译模型的架构设计、优化训练算法以提高翻译质量,以及探索多语言语音数据的预处理技术。例如,有研究利用该数据集进行端到端语音翻译模型的训练,取得了显著的性能提升。此外,CoVoST 2还激发了跨学科研究,如结合自然语言处理和语音识别技术,进一步推动了语音翻译领域的发展。
数据集最近研究
最新研究方向
在语音翻译领域,CoVoST 2数据集因其多语言覆盖和大规模数据量而备受关注。最新研究方向主要集中在提升跨语言语音翻译的准确性和效率上。研究者们通过引入先进的神经网络架构和自监督学习方法,旨在解决不同语言间的语音特征差异和翻译质量问题。此外,随着多模态学习的兴起,结合视觉和文本信息的语音翻译模型也成为研究热点,以期在复杂场景下实现更精准的翻译效果。这些前沿研究不仅推动了语音翻译技术的发展,也为多语言交流和跨文化沟通提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作