my-north-ai/cv_mls_psfb_fs0_24
收藏Hugging Face2025-10-04 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/my-north-ai/cv_mls_psfb_fs0_24
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于语音识别任务,包含音频、转录文本和持续时间三个特征。音频采样率为16000Hz,转录文本为字符串类型,持续时间为整数类型。数据集分为训练集、验证集和测试集(test_bracarense),分别包含117860、11304和1177个样本。总下载大小为47111279511字节,总数据集大小为44135959396.51199字节。
This dataset is primarily used for speech recognition tasks, featuring audio, transcription, and duration as its main features. The audio sampling rate is 16000Hz, transcription is of string type, and duration is of integer type. The dataset is divided into train, validation, and test_bracarense splits, containing 117860, 11304, and 1177 samples respectively. The total download size is 47111279511 bytes, and the total dataset size is 44135959396.51199 bytes.
提供机构:
my-north-ai
原始信息汇总
数据集概述
特征
- audio: 音频数据,采样率为16000。
- transcription: 文本转录,数据类型为字符串。
- duration: 音频时长,数据类型为整数。
数据集划分
- train: 训练集,包含117860个样本,总大小为38295706048.88字节。
- validation: 验证集,包含11304个样本,总大小为5032132659.544字节。
- test_bracarense: 测试集,包含1177个样本,总大小为808120688.088字节。
数据集大小
- 下载大小: 47111279511字节
- 数据集总大小: 44135959396.51199字节
配置
- config_name: default
- data_files:
- train: 路径为
data/train-* - validation: 路径为
data/validation-* - test_bracarense: 路径为
data/test_bracarense-*
- train: 路径为
- data_files:



