five

collectivat/tv3_parla

收藏
Hugging Face2024-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/collectivat/tv3_parla
下载链接
链接失效反馈
官方服务:
资源简介:
TV3Parla数据集包含240小时的加泰罗尼亚语广播材料,主要用于语言建模和自动语音识别任务。数据集由Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)拥有,并由Softcatalà协会支持处理。数据集包括音频文件和对应的文本转录,分为训练集和测试集。数据集的创建和注释过程未详细说明,但提供了相关的引用和贡献者信息。
提供机构:
collectivat
原始信息汇总

数据集概述

数据集名称

  • 名称: TV3Parla

数据集摘要

  • 摘要: 该数据集包含240小时的加泰罗尼亚语广播材料语音。内容由Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)拥有,并根据其使用条款提供。

支持的任务

  • 任务:
    • 语言建模
    • 自动语音识别(ASR)

语言

  • 语言: 加泰罗尼亚语 (ca)

数据集结构

  • 数据实例:

    { path: tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav, audio: {path: ..., array: ..., sampling_rate: 16000}, text: algunes montoneres que que et feien anar ben col·locat i el vent també hi jugava una mica de paper bufava vent de cantó alguns cops o de cul i el pelotón el vent el porta molt malament hi havia molts nervis }

  • 数据字段:

    • path (str): 音频文件路径。
    • audio (dict): 包含音频文件路径、解码音频数组和采样率的字典。
    • text (str): 音频文件的转录文本。

数据分割

  • 分割: 训练集和测试集
  • 示例数量:
    • 训练集: 159242
    • 测试集: 2220

许可证

引用信息

@inproceedings{kulebi18_iberspeech, author={Baybars Külebi and Alp Öktem}, title={{Building an Open Source Automatic Speech Recognition System for Catalan}}, year=2018, booktitle={Proc. IberSPEECH 2018}, pages={25--29}, doi={10.21437/IberSPEECH.2018-6} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作