ymoslem/EUbookshop-Speech-Irish
收藏Hugging Face2024-07-02 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/ymoslem/EUbookshop-Speech-Irish
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个合成的音频数据集,使用Azure文本到语音服务创建。双语文本来自EUbookshop数据集的一部分,包含33,634个文本段。数据集包括两组音频数据,一组使用女性声音(OrlaNeural),另一组使用男性声音(ColmNeural)。语音数据总计约159小时45分钟,分布在67,268个话语中。数据集的结构包括音频、爱尔兰语文本(text_ga)和英语文本(text_en)三个特征。
该数据集是一个合成的音频数据集,使用Azure文本到语音服务创建。双语文本来自EUbookshop数据集的一部分,包含33,634个文本段。数据集包括两组音频数据,一组使用女性声音(OrlaNeural),另一组使用男性声音(ColmNeural)。语音数据总计约159小时45分钟,分布在67,268个话语中。数据集的结构包括音频、爱尔兰语文本(text_ga)和英语文本(text_en)三个特征。
提供机构:
ymoslem
原始信息汇总
数据集详情
数据集概述
- 数据集名称: EUbookshop-Speech-Irish
- 创建方法: 使用Azure文本转语音服务创建的合成音频数据集。
- 语言: 爱尔兰语(ga)和英语(en)
- 数据来源: 基于EUbookshop数据集的33,634个文本片段。
- 音频数据: 包含女性声音(OrlaNeural)和男性声音(ColmNeural)的音频数据。
- 总时长: 约159小时45分钟(159:45:05)
- 总条目数: 67,268条
数据集结构
- 特征:
audio: 音频数据text_ga: 爱尔兰语文本text_en: 英语文本
- 数据量: 67,268条记录
数据集配置
- 配置名称: default
- 数据文件:
train: 包含训练数据,路径为data/train-*
许可证
- 许可证类型: eupl-1.1
任务类别
- 任务类型:
- 自动语音识别
- 文本转语音
- 翻译
大小类别
- 数据集大小: 10K<n<100K
引用
- 相关论文:
- Moslem, Yasmin. "Leveraging Synthetic Audio Data for End-to-End Low-Resource Speech Translation." Proceedings of the 2024 International Conference on Spoken Language Translation (IWSLT 2024), April 2024, Bangkok, Thailand.
- Tiedemann, Jörg. "Parallel Data, Tools and Interfaces in OPUS." Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC12), May 2012, Istanbul, Turkey.



