OpenSLR-SpeechT-GL-EN
收藏数据集概述
数据集名称: OpenSLR-SpeechT-GL-EN
任务类别:
- 翻译
- 自动语音识别
语言:
- 加利西亚语 (gl)
- 英语 (en)
数据规模:
- 1K < n < 10K
配置:
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
- 数据文件:
数据集信息:
- 特征:
- 音频:
- 采样率: 16000
- 加利西亚语文本: string
- 英语文本: string
- 音频:
数据集划分:
- 训练集:
- 字节数: 1517238620.8
- 样本数: 2288
- 验证集:
- 字节数: 227453167.36643356
- 样本数: 343
- 测试集:
- 字节数: 151856487.83356643
- 样本数: 229
下载大小: 1483627725
数据集大小: 1896548276.0
数据集描述:
- OpenSLR-SpeechT-GL-EN 是一个用于语音翻译任务的加利西亚语到英语的数据集。
- 该数据集包含了约10小时20分钟的加利西亚语男性和女性音频及其文本转录和相应的英语翻译。
预处理:
- 原始数据集包含重复的转录,由不同的说话者生成。为了正确用于训练,删除了重复的实例。
- 加利西亚语音频和转录收集后,需要从头开始创建英语翻译。
- 使用机器翻译步骤将加利西亚语转录翻译为英语。
机器翻译配置:
-
模型: GPT4-o
-
提示:
[ { "role": "system", "content": "You are a helpful assistant that translates Galician (gl-ES) to English (en-XX).", }, { "role": "user", "content": {source_text} } ]
机器翻译质量:
- 质量评估模型: Unbabel/wmt23-cometkiwi-da-xl
- 平均质量评估分数: 0.75
数据集结构:
DatasetDict({ train: Dataset({ features: [audio, text_gl, text_en], num_rows: 5587 }) })
引用:
@inproceedings{kjartansson-etal-2020-open, title = {{Open-Source High Quality Speech Datasets for Basque, Catalan and Galician}}, author = {Kjartansson, Oddur and Gutkin, Alexander and Butryna, Alena and Demirsahin, Isin and Rivera, Clara}, booktitle = {Proceedings of the 1st Joint Workshop on Spoken Language Technologies for Under-resourced languages (SLTU) and Collaboration and Computing for Under-Resourced Languages (CCURL)}, year = {2020}, pages = {21--27}, month = may, address = {Marseille, France}, publisher = {European Language Resources association (ELRA)}, url = {https://www.aclweb.org/anthology/2020.sltu-1.3}, ISBN = {979-10-95546-35-1}, }
联系人:
- Juan Julián Cea Morán (jjceamoran@gmail.com)




