projecte-aina/festcat_trimmed_denoised

Name: projecte-aina/festcat_trimmed_denoised
Creator: projecte-aina
Published: 2025-06-11 13:05:01
License: 暂无描述

Hugging Face2025-06-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/festcat_trimmed_denoised

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是加泰罗尼亚语Festcat语音数据集的后期处理版本，主要用于训练文本到语音和自动语音识别模型。数据集经过修剪、重采样和去噪处理，保留了原始数据的样本数量、文件名、匿名化的说话者ID和转录文本。数据集包含一个训练集，提供了音频和转录文本。音频数据包括文件路径、解码后的音频数组和采样率。转录文本是用户被提示说的句子。数据集的语言为加泰罗尼亚语（ca-ES）。

提供机构：

projecte-aina

原始信息汇总

数据集概述

基本信息

数据集名称: festcat_trimmed_denoised
语言: 加泰罗尼亚语 (ca)
许可证: CC BY-SA 4.0
数据集大小: 10K<n<100K
源数据集: openslr
任务类别: 文本到语音
配置: default

数据集结构

特征:
- audio: 音频数据
- transcription: 转录文本
- speaker_id: 说话者ID
分割:
- train: 12435个样本

数据处理

修剪: 去除音频开头和结尾的长时间静音
重采样: 从48000 Hz到22050 Hz
降噪: 使用CleanUNet降噪器去除背景噪声和小瑕疵

数据集内容

音频: 包含音频文件路径、解码后的音频数组和采样率
转录文本: 用户被提示说的句子

使用目的

主要用于加泰罗尼亚语的文本到语音和自动语音识别模型的训练

数据集创建

源数据: FestCat数据集
数据收集和处理: 参考FestCat数据集的原始数据收集和处理过程

联系信息

数据集卡联系: langtech@bsc.es

5,000+

优质数据集

54 个

任务类型

进入经典数据集