FLEURS-SpeechT-GL-EN

Hugging Face2024-12-18 更新2024-12-19 收录

下载链接：

https://huggingface.co/datasets/juanjucm/FLEURS-SpeechT-GL-EN

下载链接

链接失效反馈

官方服务：

资源简介：

FLEURS-SpeechT-GL-EN是一个用于语音翻译任务的加利西亚语到英语的数据集。该数据集包含约10小时11分钟的加利西亚语音频及其文本转录和相应的英语翻译。数据集基于Google的FLEURS数据集，通过对齐加利西亚语和英语数据进行处理。为了评估英语翻译的质量，应用了质量评估模型，平均QE得分为0.76。

创建时间：

2024-12-08

原始信息汇总

FLEURS-SpeechT-GL-EN 数据集概述

数据集任务类别

翻译
自动语音识别

语言

加利西亚语 (gl)
英语 (en)

数据集规模

1K<n<10K

配置

配置名称: default
- 数据文件:
  - 训练集 (train): data/train-*
  - 验证集 (validation): data/validation-*
  - 测试集 (test): data/test-*

数据集信息

特征:
- id: 数据类型为 int64
- audio: 音频数据，采样率为 16000
- text_gl: 加利西亚语文本，数据类型为 string
- text_en: 英语文本，数据类型为 string

数据集划分

训练集 (train):
- 字节数: 1867365673.628
- 样本数: 2742
验证集 (validation):
- 字节数: 336601848.0
- 样本数: 496
测试集 (test):
- 字节数: 143321367.0
- 样本数: 212

数据集大小

下载大小: 2338654742 字节
数据集大小: 2347288888.6280003 字节

数据集详情

FLEURS-SpeechT-GL-EN 是一个用于语音翻译任务的加利西亚语到英语的数据集。
该数据集基于 Google 的 FLEURS 数据集，包含约 10 小时 11 分钟的加利西亚语音频及其文本转录和相应的英语翻译。

预处理

该数据集基于 Google 的 FLEURS 语音数据集，通过对齐英语和加利西亚语数据进行处理。
对齐过程遵循 ymoslem 的 FLEURS 数据集处理脚本。

英语翻译质量

使用 Unbabel/wmt23-cometkiwi-da-xl 质量评估模型对英语文本的质量进行了评估。
平均质量评估分数: 0.76

数据集结构

DatasetDict({ train: Dataset({ features: [id, audio, text_gl, text_en], num_rows: 3450 }) })

引用

@article{fleurs2022arxiv, title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech}, author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur}, journal={arXiv preprint arXiv:2205.12446}, url = {https://arxiv.org/abs/2205.12446}, year = {2022},

数据集卡片联系人

Juan Julián Cea Morán (jjceamoran@gmail.com)

搜集汇总

数据集介绍

构建方式

FLEURS-SpeechT-GL-EN数据集的构建基于Google的FLEURS语音数据集，通过将加利西亚语（Galician）与英语数据进行对齐，形成了这一专门用于语音翻译任务的数据集。对齐过程遵循了ymoslem的FLEURS数据集处理脚本，确保了数据的高质量对齐。此外，为了评估英语翻译的质量，使用了Unbabel/wmt23-cometkiwi-da-xl质量评估模型，平均得分为0.76，进一步确保了翻译文本的准确性。

特点

FLEURS-SpeechT-GL-EN数据集的主要特点在于其专注于加利西亚语到英语的语音翻译任务，涵盖了约10小时11分钟的加利西亚语音频及其对应的文本转录和英语翻译。数据集结构清晰，包含音频、加利西亚语文本和英语文本三个主要特征，适用于多种语音处理任务。此外，数据集的翻译质量经过专门的质量评估模型验证，确保了翻译文本的可靠性。

使用方法

FLEURS-SpeechT-GL-EN数据集适用于语音翻译和自动语音识别任务。用户可以通过加载数据集中的音频和文本特征，进行模型训练、验证和测试。数据集提供了训练、验证和测试三个分割，用户可以根据需求选择相应的数据子集。此外，数据集的结构设计便于与现有的语音处理框架和工具集成，支持多种深度学习模型的开发与优化。

背景与挑战

背景概述

FLEURS-SpeechT-GL-EN数据集是由Google的FLEURS数据集衍生而来，专注于加利西亚语到英语的语音翻译任务。该数据集由主要研究人员如Conneau, Alexis等人于2022年创建，旨在评估和提升语音翻译领域的少样本学习能力。通过结合加利西亚语的音频数据及其对应的英语翻译，该数据集为语音翻译技术的发展提供了宝贵的资源，特别是在处理低资源语言翻译的挑战方面。

当前挑战

FLEURS-SpeechT-GL-EN数据集面临的挑战主要集中在两个方面：一是加利西亚语作为低资源语言，其语音数据的收集和处理难度较大；二是确保英语翻译的高质量，尽管通过质量评估模型（如Unbabel/wmt23-cometkiwi-da-xl）获得了平均0.76的QE分数，但仍需进一步优化以提高翻译的准确性和自然度。此外，数据集的构建过程中，如何有效地对齐和处理两种语言的语音数据也是一个技术难点。

常用场景

经典使用场景

FLEURS-SpeechT-GL-EN数据集在语音翻译领域中展现了其经典应用价值，主要用于加利西亚语到英语的语音翻译任务。通过该数据集，研究者能够训练和评估自动语音识别（ASR）和机器翻译（MT）模型，尤其是在处理低资源语言的翻译问题上。其丰富的音频数据和对应的文本翻译为模型提供了高质量的训练材料，使得模型在处理加利西亚语语音时能够生成准确的英语文本。

实际应用

在实际应用中，FLEURS-SpeechT-GL-EN数据集可广泛应用于多语言语音翻译系统、跨语言语音助手以及多语言会议实时翻译等场景。例如，在跨国会议中，该数据集支持的翻译模型能够实时将加利西亚语发言转换为英语，极大提升了沟通效率。此外，该数据集还可用于开发面向特定语言社区的语音识别和翻译工具，促进语言多样性和文化交流。

衍生相关工作

基于FLEURS-SpeechT-GL-EN数据集，研究者们开展了多项相关工作，包括改进语音翻译模型的架构设计、提升翻译质量的算法优化以及低资源语言翻译的迁移学习研究。例如，有研究利用该数据集进行端到端的语音翻译模型训练，显著提高了翻译的准确性和流畅度。此外，该数据集还激发了对多语言语音数据集的进一步探索，推动了全球范围内语音翻译技术的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集