voxpopuli_es-ja

Hugging Face2024-12-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Marianoleiras/voxpopuli_es-ja

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专为自动语音识别（ASR）和翻译任务设计，旨在将西班牙语语音转换为日语文本。它包含采样率为16 kHz的高质量音频录音，配对有西班牙语文本及其日语翻译。数据集分为训练、验证和测试三个部分，分别包含相应数量的样本。该数据集基于VoxPopuli数据集构建，经过额外的处理步骤，包括翻译成英语和日语，随后进行质量过滤以确保高质量的翻译。

创建时间：

2024-12-09

原始信息汇总

数据集卡片：西班牙语到日语的自动语音识别数据集

数据集概述

该数据集旨在用于自动语音识别（ASR）和翻译任务，能够将西班牙语语音转换为日语文本。它包含高质量的音频录音，采样率为16 kHz，并配有西班牙语转录（es）及其日语翻译（ja）。

数据集结构

特征

数据集包含以下特征：

audio：音频录音，采样率为16 kHz。
es：音频的西班牙语转录。
ja：西班牙语转录的日语翻译。

数据分割

分割	样本数量
训练	10,081
验证	1,456
测试	1,366

数据集大小

下载大小： 4.85 GB
数据集大小： 5.66 GB

数据集处理

数据集的构建过程如下：

基础数据集：使用 facebook/voxpopuli 数据集作为基础数据集，提供西班牙语音频及其对应的转录。
翻译为英语：使用 Helsinki-NLP/opus-mt-es-en 机器翻译模型将西班牙语转录翻译为英语。
翻译为日语：使用 Helsinki-NLP/opus-tatoeba-en-ja 机器翻译模型将英语翻译进一步翻译为日语。
处理日语文本：日语翻译中包含不必要的空白，这些空白在日语书写中不常见。这些空白被删除以确保格式和一致性。
质量过滤：使用 Unbabel/wmt23-cometkiwi-da-xl MT 质量评估模型对日语翻译进行质量评估。低质量的翻译被过滤掉，以确保最终数据集在音频、转录和翻译之间保持一定的质量对齐。

引用

@article{wang2021voxpopuli, title={VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation}, author={Chung-Cheng Chiu and Paden Tomasello and ...}, year={2021}, publisher={Meta AI}, url={https://huggingface.co/datasets/facebook/voxpopuli} }

@inproceedings{tiedemann-thottingal-2020-opus, title={OPUS-MT -- Building Open Translation Services for the World}, author={J{"o}rg Tiedemann and Santhosh Thottingal}, booktitle={Proceedings of the 22nd Annual Conference of the European Association for Machine Translation (EAMT)}, year={2020}, url={https://huggingface.co/Helsinki-NLP} }

@inproceedings{rei-etal-2023-cometkiwi, title={COMETKiwi: Advanced Quality Estimation Model for Machine Translation}, author={Rei, Ricardo and others}, year={2023}, url={https://huggingface.co/Unbabel/wmt23-cometkiwi-da-xl} }

数据集卡片联系人

Mariano González (marianoleiras@hotmail.com)

搜集汇总

数据集介绍

构建方式

该数据集的构建基于大规模多语言语音语料库 **[facebook/voxpopuli](https://huggingface.co/datasets/facebook/voxpopuli)**，首先提取西班牙语的音频及其对应的转录文本。随后，通过 **[Helsinki-NLP/opus-mt-es-en](https://huggingface.co/Helsinki-NLP/opus-mt-es-en)** 模型将西班牙语转录翻译为英语，再利用 **[Helsinki-NLP/opus-tatoeba-en-ja](https://huggingface.co/Helsinki-NLP/opus-tatoeba-en-ja)** 模型将英语翻译成日语。为确保日语文本的规范性，去除了翻译中多余的空白字符。最后，使用 **[Unbabel/wmt23-cometkiwi-da-xl](https://huggingface.co/Unbabel/wmt23-cometkiwi-da-xl)** 模型对日语翻译进行质量评估，过滤低质量翻译，确保数据集的高质量对齐。

特点

该数据集的主要特点在于其多语言对齐的高质量音频与文本数据。音频采样率为16 kHz，确保了语音识别任务的精度。西班牙语转录与日语翻译的配对，为跨语言语音识别与翻译任务提供了丰富的资源。此外，数据集经过严格的质量筛选，确保了翻译文本的准确性与一致性，适合用于自动语音识别（ASR）和翻译模型的训练与评估。

使用方法

该数据集适用于自动语音识别（ASR）和翻译任务。用户可以通过加载数据集中的音频文件和对应的西班牙语及日语文本，进行模型训练或评估。数据集提供了训练、验证和测试三个子集，分别包含10,081、1,456和1,366个样本，便于用户在不同阶段进行实验。此外，数据集的结构清晰，支持直接用于多种深度学习框架，如PyTorch或TensorFlow，方便用户快速集成到现有工作流中。

背景与挑战

背景概述

voxpopuli_es-ja数据集是为自动语音识别（ASR）和翻译任务而设计的多语言数据集，旨在实现西班牙语语音到日语文本的转换。该数据集基于Meta AI发布的VoxPopuli数据集，由Mariano González等研究人员于2021年创建。其核心研究问题在于如何通过高质量的语音数据和多语言翻译，提升跨语言语音识别的准确性和效率。该数据集的构建不仅丰富了多语言语音识别的研究资源，还为跨语言翻译技术的发展提供了重要的数据支持。

当前挑战

voxpopuli_es-ja数据集在构建过程中面临多项挑战。首先，如何确保西班牙语到日语翻译的准确性是一个关键问题，尤其是在通过中间语言（如英语）进行翻译时，可能会引入额外的翻译误差。其次，处理日语文本时，去除不必要的空白字符以确保文本格式的统一性，增加了数据处理的复杂性。此外，通过质量评估模型对翻译结果进行筛选，虽然提高了数据集的质量，但也增加了数据处理的计算成本和时间。这些挑战共同构成了该数据集在实际应用中的主要障碍。

常用场景

经典使用场景

该数据集最经典的使用场景在于自动语音识别（ASR）与翻译任务的结合，特别是在西班牙语到日语的跨语言转换中。通过提供高质量的音频数据及其对应的西班牙语和日语文本，研究者和开发者能够训练和优化语音识别模型，实现从西班牙语语音到日语文本的精准转换。这一场景在多语言语音处理和跨文化交流领域具有重要意义，尤其是在需要高效处理多语言语音数据的场景中。

解决学术问题

该数据集解决了多语言语音识别与翻译中的关键学术问题，特别是在跨语言语音识别的准确性和翻译质量方面。通过提供高质量的音频与文本对齐数据，研究者能够深入探索语音识别模型在不同语言间的泛化能力，并提升翻译模型的跨语言表现。这不仅推动了语音识别技术的进步，也为多语言翻译研究提供了宝贵的资源，进一步促进了跨语言交流与理解。

衍生相关工作

基于该数据集，研究者已开展了一系列相关工作，特别是在多语言语音识别与翻译模型的优化方面。例如，有研究利用该数据集训练了跨语言语音识别模型，显著提升了西班牙语到日语的语音识别准确率。此外，还有研究基于该数据集开发了多语言翻译评估工具，进一步提升了翻译质量的评估标准。这些衍生工作不仅丰富了多语言语音处理的研究领域，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集