collectivat/tv3_parla
收藏Hugging Face2024-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/collectivat/tv3_parla
下载链接
链接失效反馈官方服务:
资源简介:
TV3Parla数据集包含240小时的加泰罗尼亚语广播材料,主要用于语言建模和自动语音识别任务。数据集由Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)拥有,并由Softcatalà协会支持处理。数据集包括音频文件和对应的文本转录,分为训练集和测试集。数据集的创建和注释过程未详细说明,但提供了相关的引用和贡献者信息。
提供机构:
collectivat
原始信息汇总
数据集概述
数据集名称
- 名称: TV3Parla
数据集摘要
- 摘要: 该数据集包含240小时的加泰罗尼亚语广播材料语音。内容由Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)拥有,并根据其使用条款提供。
支持的任务
- 任务:
- 语言建模
- 自动语音识别(ASR)
语言
- 语言: 加泰罗尼亚语 (
ca)
数据集结构
-
数据实例:
{ path: tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav, audio: {path: ..., array: ..., sampling_rate: 16000}, text: algunes montoneres que que et feien anar ben col·locat i el vent també hi jugava una mica de paper bufava vent de cantó alguns cops o de cul i el pelotón el vent el porta molt malament hi havia molts nervis }
-
数据字段:
path(str): 音频文件路径。audio(dict): 包含音频文件路径、解码音频数组和采样率的字典。text(str): 音频文件的转录文本。
数据分割
- 分割: 训练集和测试集
- 示例数量:
- 训练集: 159242
- 测试集: 2220
许可证
引用信息
@inproceedings{kulebi18_iberspeech, author={Baybars Külebi and Alp Öktem}, title={{Building an Open Source Automatic Speech Recognition System for Catalan}}, year=2018, booktitle={Proc. IberSPEECH 2018}, pages={25--29}, doi={10.21437/IberSPEECH.2018-6} }



