classla/Mici_Princ

Name: classla/Mici_Princ
Creator: classla
Published: 2024-09-23 12:53:44
License: 暂无描述

Hugging Face2024-09-23 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/classla/Mici_Princ

下载链接

链接失效反馈

官方服务：

资源简介：

Mići Princ - Chakavian ASR数据集包含克罗地亚语Chakavian方言的音频和文本数据，主要用于自动语音识别（ASR）训练。数据集分为训练集和测试集，训练集包含277个实例，测试集包含95个实例。每个实例包含音频、文本、归一化文本和说话者信息。音频采样率为16000Hz，文本包含标点符号和特殊字符，归一化文本则对这些字符进行了简化处理。

提供机构：

classla

原始信息汇总

数据集概述

数据集名称

Mići Princ - Chakavian ASR Dataset

数据集描述

Antoine de Saint-Exupérys The Little Prince, translated into Chakavian dialect of Croatian and read by native speakers.

数据集组成

属性

audio:
- train: 音频片段可能包含多个说话者，持续时间在[0, 30]秒，便于ASR训练。
- test: 每个实例中只有一个说话者。
text: 包含标点、换行、项目符号和特殊字符的文本。
normalized_text: 移除了部分标点和特殊字符，特殊字符被重新映射，便于训练。不包含标准克罗地亚语中的特殊字符（ȅ,é,ȋ,ȉ,ȃ,ȁ），替换为非特殊字符（e,i,a）。移除了项目符号、换行和引号。
speaker:
- train: 该属性始终为空字符串。
- test: 准确代表说话者。