OpenSLR-SpeechT-GL-EN

Hugging Face2024-12-18 更新2024-12-19 收录

下载链接：

https://huggingface.co/datasets/juanjucm/OpenSLR-SpeechT-GL-EN

下载链接

链接失效反馈

官方服务：

资源简介：

OpenSLR-SpeechT-GL-EN是一个用于语音翻译任务的加利西亚语到英语的数据集。该数据集包含了大约10小时20分钟的加利西亚语男性和女性的音频，以及相应的文本转录和对应的英语翻译。数据集的预处理步骤包括去除重复的转录，并使用机器翻译模型GPT4-o生成英语翻译。

创建时间：

2024-12-05

原始信息汇总

数据集概述

数据集名称: OpenSLR-SpeechT-GL-EN

任务类别:

翻译
自动语音识别

语言:

加利西亚语 (gl)
英语 (en)

数据规模:

1K < n < 10K

配置:

配置名称: default
- 数据文件:
  - 训练集: data/train-*
  - 验证集: data/validation-*
  - 测试集: data/test-*

数据集信息:

特征:
- 音频:
  - 采样率: 16000
- 加利西亚语文本: string
- 英语文本: string

数据集划分:

训练集:
- 字节数: 1517238620.8
- 样本数: 2288
验证集:
- 字节数: 227453167.36643356
- 样本数: 343
测试集:
- 字节数: 151856487.83356643
- 样本数: 229

下载大小: 1483627725

数据集大小: 1896548276.0

数据集描述:

OpenSLR-SpeechT-GL-EN 是一个用于语音翻译任务的加利西亚语到英语的数据集。
该数据集包含了约10小时20分钟的加利西亚语男性和女性音频及其文本转录和相应的英语翻译。

预处理:

原始数据集包含重复的转录，由不同的说话者生成。为了正确用于训练，删除了重复的实例。
加利西亚语音频和转录收集后，需要从头开始创建英语翻译。
使用机器翻译步骤将加利西亚语转录翻译为英语。

机器翻译配置:

模型: GPT4-o
提示:

[ { "role": "system", "content": "You are a helpful assistant that translates Galician (gl-ES) to English (en-XX).", }, { "role": "user", "content": {source_text} } ]

机器翻译质量:

质量评估模型: Unbabel/wmt23-cometkiwi-da-xl
平均质量评估分数: 0.75

数据集结构:

DatasetDict({ train: Dataset({ features: [audio, text_gl, text_en], num_rows: 5587 }) })

引用:

@inproceedings{kjartansson-etal-2020-open, title = {{Open-Source High Quality Speech Datasets for Basque, Catalan and Galician}}, author = {Kjartansson, Oddur and Gutkin, Alexander and Butryna, Alena and Demirsahin, Isin and Rivera, Clara}, booktitle = {Proceedings of the 1st Joint Workshop on Spoken Language Technologies for Under-resourced languages (SLTU) and Collaboration and Computing for Under-Resourced Languages (CCURL)}, year = {2020}, pages = {21--27}, month = may, address = {Marseille, France}, publisher = {European Language Resources association (ELRA)}, url = {https://www.aclweb.org/anthology/2020.sltu-1.3}, ISBN = {979-10-95546-35-1}, }

联系人:

Juan Julián Cea Morán (jjceamoran@gmail.com)

搜集汇总

数据集介绍

构建方式

OpenSLR-SpeechT-GL-EN数据集的构建基于OpenSLR的众包高质量加利西亚语语音数据集，涵盖了约10小时20分钟的加利西亚语男性和女性音频及其对应的文本转录。为满足语音翻译任务的需求，原始数据中的重复转录被剔除，确保数据集的唯一性。随后，通过GPT4-o模型对加利西亚语文本进行机器翻译，生成相应的英语翻译。为评估翻译质量，采用了Unbabel/wmt23-cometkiwi-da-xl质量评估模型，平均得分为0.75，确保了翻译的可靠性。

特点

该数据集的显著特点在于其双语语音翻译能力，涵盖加利西亚语和英语两种语言，适合于语音翻译和自动语音识别任务。数据集结构清晰，包含音频、加利西亚语文本和英语文本三个主要特征，采样率为16000Hz，确保了音频的高质量。此外，数据集的训练、验证和测试集划分合理，分别为2288、343和229个样本，便于模型训练和性能评估。

使用方法

使用OpenSLR-SpeechT-GL-EN数据集时，用户可直接加载包含音频、加利西亚语文本和英语文本的DatasetDict对象。数据集的预处理步骤已确保重复实例的移除和高质量的英语翻译，用户可专注于模型的训练和评估。建议用户根据任务需求选择合适的模型架构，如Transformer模型，以充分利用该数据集的双语语音翻译特性。

背景与挑战

背景概述

OpenSLR-SpeechT-GL-EN数据集是由OpenSLR项目推出的一个专门用于语音翻译任务的加利西亚语到英语的数据集。该数据集的核心研究问题在于如何有效地将加利西亚语的语音数据翻译成英语，以促进跨语言的语音识别与翻译技术的发展。数据集的构建基于OpenSLR的‘Crowdsourced high-quality Galician speech data set’，包含了约10小时20分钟的加利西亚语男性和女性语音数据及其对应的文本转录和英语翻译。主要研究人员包括Kjartansson、Gutkin等人，他们的研究成果在2020年的‘Proceedings of the 1st Joint Workshop on Spoken Language Technologies for Under-resourced languages’中发表，对低资源语言的语音技术研究具有重要影响。

当前挑战

OpenSLR-SpeechT-GL-EN数据集在构建过程中面临了多个挑战。首先，原始数据集中存在重复的转录，这要求研究人员在预处理阶段进行去重处理，以确保数据集的准确性和可用性。其次，加利西亚语到英语的翻译需要从零开始创建，这涉及到机器翻译技术的应用，特别是GPT4-o模型的使用，尽管翻译质量通过质量评估模型（如Unbabel/wmt23-cometkiwi-da-xl）得到了一定的验证，但翻译的准确性和自然度仍然是一个挑战。此外，数据集的规模相对较小，如何在有限的资源下提高模型的训练效果也是一个重要的研究问题。

常用场景

经典使用场景

OpenSLR-SpeechT-GL-EN数据集在语音翻译领域中展现了其独特的价值，尤其是在加利西亚语到英语的翻译任务中。该数据集通过提供高质量的语音数据及其对应的文本转录和英语翻译，为自动语音识别（ASR）和机器翻译（MT）模型的训练提供了丰富的资源。研究者可以利用此数据集训练和评估语音翻译模型，特别是在处理低资源语言翻译时，该数据集的多样性和高质量标注为模型性能的提升提供了有力支持。

衍生相关工作

基于OpenSLR-SpeechT-GL-EN数据集，研究者已开展了一系列相关工作，包括改进语音识别模型、优化机器翻译算法以及提升语音翻译系统的整体性能。例如，有研究利用该数据集训练端到端的语音翻译模型，显著提高了翻译的准确性和流畅度。此外，该数据集还被用于开发多语言语音识别系统，进一步推动了低资源语言语音技术的发展。

数据集最近研究