collectivat/tv3_parla

Name: collectivat/tv3_parla
Creator: collectivat
Published: 2024-11-25 15:21:20
License: 暂无描述

Hugging Face2024-11-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/collectivat/tv3_parla

下载链接

链接失效反馈

官方服务：

资源简介：

TV3Parla数据集包含240小时的加泰罗尼亚语广播材料，主要用于语言建模和自动语音识别任务。数据集由Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)拥有，并由Softcatalà协会支持处理。数据集包括音频文件和对应的文本转录，分为训练集和测试集。数据集的创建和注释过程未详细说明，但提供了相关的引用和贡献者信息。

提供机构：

collectivat

原始信息汇总

数据集概述

数据集名称

名称: TV3Parla

数据集摘要

摘要: 该数据集包含240小时的加泰罗尼亚语广播材料语音。内容由Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)拥有，并根据其使用条款提供。

支持的任务

任务:
- 语言建模
- 自动语音识别（ASR）

语言

语言: 加泰罗尼亚语 (ca)

数据集结构

数据实例:

{ path: tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav, audio: {path: ..., array: ..., sampling_rate: 16000}, text: algunes montoneres que que et feien anar ben col·locat i el vent també hi jugava una mica de paper bufava vent de cantó alguns cops o de cul i el pelotón el vent el porta molt malament hi havia molts nervis }
数据字段:
- path (str): 音频文件路径。
- audio (dict): 包含音频文件路径、解码音频数组和采样率的字典。
- text (str): 音频文件的转录文本。

数据分割

分割: 训练集和测试集
示例数量:
- 训练集: 159242
- 测试集: 2220

许可证

许可证: Creative Commons Attribution-NonCommercial 4.0 International

引用信息

@inproceedings{kulebi18_iberspeech, author={Baybars Külebi and Alp Öktem}, title={{Building an Open Source Automatic Speech Recognition System for Catalan}}, year=2018, booktitle={Proc. IberSPEECH 2018}, pages={25--29}, doi={10.21437/IberSPEECH.2018-6} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集