facebook/covost2

Name: facebook/covost2
Creator: facebook
Published: 2024-01-18 11:02:25
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/facebook/covost2

下载链接

链接失效反馈

官方服务：

资源简介：

CoVoST 2 是一个大规模的多语言语音翻译语料库，涵盖了从21种语言到英语以及从英语到15种语言的翻译。该数据集使用Mozilla的开源Common Voice数据库创建，包含了2,900小时的语音数据。数据集设计用于语音到文本的翻译任务，常用的评估指标是BLEU分数。数据集包含多种语言的音频文件、转录文本和翻译文本。

CoVoST 2 is a large-scale multilingual speech translation corpus covering translations from 21 languages to English and from English to 15 languages. Developed using Mozilla's open-source Common Voice database, it contains 2,900 hours of speech data. This dataset is designed for speech-to-text translation tasks, and the commonly used evaluation metric is the BLEU score. The dataset includes audio files, transcriptions, and translated texts in multiple languages.

提供机构：

facebook

原始信息汇总

数据集概述

基本信息

数据集名称: CoVoST 2
语言: 包含21种语言的语音数据，具体包括阿拉伯语、加泰罗尼亚语、中文、威尔士语、荷兰语、英语、爱沙尼亚语、法语、德语、印度尼西亚语、意大利语、日语、拉脱维亚语、蒙古语、波斯语、葡萄牙语、俄语、斯洛文尼亚语、西班牙语、瑞典语、土耳其语。
许可证: CC-BY-NC-4.0
多语言性: 多语言
数据集大小: 100K<n<1M
源数据集: 扩展自Common Voice
任务类别: 自动语音识别

数据结构

特征

client_id: 字符串类型
file: 字符串类型
sentence: 字符串类型
translation: 字符串类型
id: 字符串类型

数据分割

训练集: 示例数量和字节数因语言对而异，范围从1,782到289,430个示例，字节数从808,508到146,318,684字节。
验证集: 示例数量和字节数因语言对而异，范围从384到15,531个示例，字节数从150,428到7,944,020字节。
测试集: 示例数量和字节数因语言对而异，范围从360到15,531个示例，字节数从115,414到7,411,400字节。

下载和数据集大小

下载大小: 因语言对而异，范围从189,710字节到30,037,790字节。
数据集大小: 因语言对而异，范围从883,811字节到161,674,104字节。

配置信息

数据集包含多个配置，每个配置对应一个语言对，例如：

en_de: 英语到德语
en_tr: 英语到土耳其语
en_fa: 英语到波斯语
fr_en: 法语到英语
de_en: 德语到英语
es_en: 西班牙语到英语
ca_en: 加泰罗尼亚语到英语
it_en: 意大利语到英语
ru_en: 俄语到英语
zh-CN_en: 中文到英语
pt_en: 葡萄牙语到英语
fa_en: 波斯语到英语
et_en: 爱沙尼亚语到英语
mn_en: 蒙古语到英语
nl_en: 荷兰语到英语
tr_en: 土耳其语到英语
ar_en: 阿拉伯语到英语
sv-SE_en: 瑞典语到英语
lv_en: 拉脱维亚语到英语
sl_en: 斯洛文尼亚语到英语
ta_en: 泰米尔语到英语
ja_en: 日语到英语
id_en: 印度尼西亚语到英语
cy_en: 威尔士语到英语

每个配置包含训练集、验证集和测试集的具体数量和字节数。

搜集汇总

数据集介绍

构建方式

CoVoST 2数据集的构建基于Mozilla的开源项目Common Voice，这是一个由众包语音录音组成的数据库。该数据集涵盖了21种语言到英语以及英语到15种语言的翻译。通过专家生成和众包相结合的方式，收集了大量的语音数据，并进行了高质量的标注。数据集的构建过程确保了语音与文本之间的精确对应，从而为语音翻译任务提供了丰富的训练资源。

特点

CoVoST 2数据集的一个显著特点是其多语言覆盖范围广泛，包括但不限于法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语、中文、威尔士语、加泰罗尼亚语、斯洛文尼亚语、爱沙尼亚语、印度尼西亚语、阿拉伯语、泰米尔语、葡萄牙语、拉脱维亚语和日语。此外，数据集的规模庞大，包含2900小时的语音数据，为语音翻译模型的训练提供了充足的数据支持。

使用方法

CoVoST 2数据集主要用于语音翻译任务，模型通过接收一种语言的音频文件，并将其转录为另一种语言的书面文本。使用该数据集时，研究者可以利用提供的音频文件、转录文本及其翻译，进行模型的训练和评估。常见的评估指标包括BLEU分数，以衡量翻译质量。数据集的结构清晰，便于研究者快速上手，并进行相关实验和研究。

背景与挑战

背景概述

CoVoST 2数据集是由Facebook Research团队创建的一个大规模多语言语音翻译语料库，涵盖了21种语言到英语以及英语到15种语言的翻译。该数据集基于Mozilla的开源Common Voice数据库，该数据库收集了众包的语音录音。CoVoST 2数据集包含了2900小时的语音数据，旨在推动语音翻译技术的发展。主要研究人员包括Changhan Wang、Juan Miguel Pino和Jiatao Gu，他们的工作显著提升了多语言语音翻译的准确性和效率，对语音识别和自然语言处理领域产生了深远影响。

当前挑战

CoVoST 2数据集在构建过程中面临多重挑战。首先，多语言语音数据的收集和标注需要高度的专业性和时间成本，确保数据的质量和多样性是一大难题。其次，不同语言之间的语音特征和语法结构差异巨大，如何设计有效的模型来处理这些差异是一个技术挑战。此外，数据集的规模和复杂性要求高效的计算资源和算法优化，以确保模型训练的效率和效果。这些挑战不仅推动了语音翻译技术的发展，也为相关领域的研究提供了宝贵的资源和经验。

常用场景

经典使用场景

CoVoST 2数据集的经典使用场景主要集中在多语言语音翻译任务上。研究者们利用该数据集训练和评估语音到文本翻译模型，这些模型能够将多种语言的语音转换为英语或其他目标语言的文本。通过这种方式，CoVoST 2为跨语言语音识别和翻译提供了丰富的资源，推动了语音翻译技术的发展。

衍生相关工作

基于CoVoST 2数据集，研究者们开展了多项相关工作，包括改进语音翻译模型的架构设计、优化训练算法以提高翻译质量，以及探索多语言语音数据的预处理技术。例如，有研究利用该数据集进行端到端语音翻译模型的训练，取得了显著的性能提升。此外，CoVoST 2还激发了跨学科研究，如结合自然语言处理和语音识别技术，进一步推动了语音翻译领域的发展。

数据集最近研究