czyzi0/the-mc-speech-dataset

Name: czyzi0/the-mc-speech-dataset
Creator: czyzi0
Published: 2024-03-16 15:30:05
License: 暂无描述

Hugging Face2024-03-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/czyzi0/the-mc-speech-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MC Speech数据集是一个公共领域的语音数据集，包含24018个由单个说话者用波兰语朗读的句子的短音频片段。每个音频片段都附有转录文本，音频片段的总长度超过22小时。文本和音频均属于公共领域，音频录制于2021-22年，作为作者硕士论文的一部分。数据集的特征包括音频、转录文本和ID，数据集的分割为训练集，包含24018个样本。

提供机构：

czyzi0

原始信息汇总

数据集概述

基本信息

语言: 波兰语
许可证: CC0 1.0
数据集大小分类: 10K<n<100K
任务分类:
- 文本到语音
- 自动语音识别
数据集名称: The MC Speech Dataset

数据集详情

特征:
- 音频:
  - 采样率: 44100
- 转录文本: 字符串类型
- ID: 字符串类型
分割:
- 训练集:
  - 字节数: 6985316587.668
  - 样本数: 24018
下载大小: 6174661195
数据集大小: 6985316587.668

配置

默认配置:
- 数据文件:
  - 训练集路径: data/train-*

描述

该数据集包含24018个短音频片段，由单个说话者朗读波兰语句子。每个片段均提供转录文本。总时长超过22小时。

5,000+

优质数据集

54 个

任务类型

进入经典数据集