ymoslem/EUbookshop-Speech-Irish

Name: ymoslem/EUbookshop-Speech-Irish
Creator: ymoslem
Published: 2024-07-02 05:22:42
License: 暂无描述

Hugging Face2024-07-02 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/ymoslem/EUbookshop-Speech-Irish

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成的音频数据集，使用Azure文本到语音服务创建。双语文本来自EUbookshop数据集的一部分，包含33,634个文本段。数据集包括两组音频数据，一组使用女性声音（OrlaNeural），另一组使用男性声音（ColmNeural）。语音数据总计约159小时45分钟，分布在67,268个话语中。数据集的结构包括音频、爱尔兰语文本（text_ga）和英语文本（text_en）三个特征。

提供机构：

ymoslem

原始信息汇总

数据集详情

数据集概述

数据集名称: EUbookshop-Speech-Irish
创建方法: 使用Azure文本转语音服务创建的合成音频数据集。
语言: 爱尔兰语（ga）和英语（en）
数据来源: 基于EUbookshop数据集的33,634个文本片段。
音频数据: 包含女性声音（OrlaNeural）和男性声音（ColmNeural）的音频数据。
总时长: 约159小时45分钟（159:45:05）
总条目数: 67,268条

数据集结构

特征:
- audio: 音频数据
- text_ga: 爱尔兰语文本
- text_en: 英语文本
数据量: 67,268条记录

数据集配置

配置名称: default
数据文件:
- train: 包含训练数据，路径为data/train-*

许可证

许可证类型: eupl-1.1

任务类别

任务类型:
- 自动语音识别
- 文本转语音
- 翻译

大小类别

数据集大小: 10K<n<100K

引用

相关论文:
- Moslem, Yasmin. "Leveraging Synthetic Audio Data for End-to-End Low-Resource Speech Translation." Proceedings of the 2024 International Conference on Spoken Language Translation (IWSLT 2024), April 2024, Bangkok, Thailand.
- Tiedemann, Jörg. "Parallel Data, Tools and Interfaces in OPUS." Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC12), May 2012, Istanbul, Turkey.

5,000+

优质数据集

54 个

任务类型

进入经典数据集