five

ymoslem/BitesizeIrish-GA-EN

收藏
Hugging Face2024-07-02 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ymoslem/BitesizeIrish-GA-EN
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集最初由Bitesize Irish创建,作为其“In Irish”系列的一部分。数据集包含约5小时14分钟58秒的音频数据,主要用于自动语音识别、文本到语音和翻译任务。数据集包含爱尔兰语(ga)和英语(en)两种语言,特征包括音频、爱尔兰语文本、英语文本、原始英语文本、发音和URL。数据集共有6159个样本,总大小为155452186.824字节,下载大小为153741856字节。数据集仅用于教育和研究目的,所有权利归Bitesize Irish Ltd所有。

This dataset was originally created by Bitesize Irish as part of their “In Irish” series. The dataset contains approximately 5 hours, 14 minutes, and 58 seconds of audio data, primarily used for automatic speech recognition, text-to-speech, and translation tasks. The dataset includes both Irish (ga) and English (en) languages, with features such as audio, Irish text, English text, raw English text, pronunciation, and URL. The dataset consists of 6159 samples, with a total size of 155452186.824 bytes and a download size of 153741856 bytes. The dataset is intended for educational and research purposes only, with all rights reserved to Bitesize Irish Ltd.
提供机构:
ymoslem
原始信息汇总

数据集概述

基本信息

  • 语言: 包含爱尔兰语(ga)和英语(en)
  • 大小分类: 数据集大小介于1K到10K之间
  • 任务分类: 包括自动语音识别、文本到语音转换和翻译

数据集结构

  • 特征:
    • audio: 音频数据,采样率为44100Hz
    • text_ga: 爱尔兰语文本,数据类型为字符串
    • text_en: 英语文本,数据类型为字符串
    • text_en_raw: 原始英语文本,数据类型为字符串
    • pronunciation: 发音信息,数据类型为字符串
    • url: URL信息,数据类型为字符串
  • 分割:
    • train: 训练集,包含6149个样本,总大小为155452186.824字节

数据集大小

  • 下载大小: 153741856字节
  • 数据集大小: 155452186.824字节

数据集详情

  • 持续时间: 约5小时14分58秒
  • 总行数: 6159行

许可证

  • 版权所有: Bitesize Irish Ltd
  • 使用目的: 教育与研究
  • 联系方式: info@bitesize.irish

引用信息

@inproceedings{moslem2024leveraging, title={Leveraging Synthetic Audio Data for End-to-End Low-Resource Speech Translation}, author={Moslem, Yasmin}, booktitle={Proceedings of the 2024 International Conference on Spoken Language Translation (IWSLT 2024)}, year={2024}, month={April} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作