five

ymoslem/EUbookshop-Speech-Irish

收藏
Hugging Face2024-07-02 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/ymoslem/EUbookshop-Speech-Irish
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个合成的音频数据集,使用Azure文本到语音服务创建。双语文本来自EUbookshop数据集的一部分,包含33,634个文本段。数据集包括两组音频数据,一组使用女性声音(OrlaNeural),另一组使用男性声音(ColmNeural)。语音数据总计约159小时45分钟,分布在67,268个话语中。数据集的结构包括音频、爱尔兰语文本(text_ga)和英语文本(text_en)三个特征。

该数据集是一个合成的音频数据集,使用Azure文本到语音服务创建。双语文本来自EUbookshop数据集的一部分,包含33,634个文本段。数据集包括两组音频数据,一组使用女性声音(OrlaNeural),另一组使用男性声音(ColmNeural)。语音数据总计约159小时45分钟,分布在67,268个话语中。数据集的结构包括音频、爱尔兰语文本(text_ga)和英语文本(text_en)三个特征。
提供机构:
ymoslem
原始信息汇总

数据集详情

数据集概述

  • 数据集名称: EUbookshop-Speech-Irish
  • 创建方法: 使用Azure文本转语音服务创建的合成音频数据集。
  • 语言: 爱尔兰语(ga)和英语(en)
  • 数据来源: 基于EUbookshop数据集的33,634个文本片段。
  • 音频数据: 包含女性声音(OrlaNeural)和男性声音(ColmNeural)的音频数据。
  • 总时长: 约159小时45分钟(159:45:05)
  • 总条目数: 67,268条

数据集结构

  • 特征:
    • audio: 音频数据
    • text_ga: 爱尔兰语文本
    • text_en: 英语文本
  • 数据量: 67,268条记录

数据集配置

  • 配置名称: default
  • 数据文件:
    • train: 包含训练数据,路径为data/train-*

许可证

  • 许可证类型: eupl-1.1

任务类别

  • 任务类型:
    • 自动语音识别
    • 文本转语音
    • 翻译

大小类别

  • 数据集大小: 10K<n<100K

引用

  • 相关论文:
    • Moslem, Yasmin. "Leveraging Synthetic Audio Data for End-to-End Low-Resource Speech Translation." Proceedings of the 2024 International Conference on Spoken Language Translation (IWSLT 2024), April 2024, Bangkok, Thailand.
    • Tiedemann, Jörg. "Parallel Data, Tools and Interfaces in OPUS." Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC12), May 2012, Istanbul, Turkey.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作