my-north-ai/cv_mls_psfb_zero_synthetic
收藏Hugging Face2025-10-04 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/my-north-ai/cv_mls_psfb_zero_synthetic
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频数据和对应的转录文本。音频的采样率为16000Hz,转录文本为字符串类型,音频时长为int32类型。数据集分为训练集、验证集和测试集三个部分,分别包含69519、11304和1177个样本。数据集的下载大小为30979292782字节,总大小为40826165406.131996字节。
This dataset is primarily used for audio processing and speech recognition tasks. It includes three main features: audio (with a sampling rate of 16000 Hz), transcription (string type), and duration (integer type). The dataset is divided into a training set (69519 samples), a validation set (11304 samples), and a test set specific to Bracarense (1177 samples). The total download size of the dataset is 30979292782 bytes, and the total dataset size is 40826165406.131996 bytes. The dataset configuration is set to default, with data file paths specified according to different splits.
提供机构:
my-north-ai
原始信息汇总
数据集概述
特征
- audio: 音频数据,采样率为16000。
- transcription: 转录文本,数据类型为字符串。
- duration: 音频时长,数据类型为整数。
数据集分割
- train: 训练集,包含69519个样本,总大小为34985912058.5字节。
- validation: 验证集,包含11304个样本,总大小为5032132659.544字节。
- test_bracarense: 测试集,包含1177个样本,总大小为808120688.088字节。
数据集大小
- 下载大小: 30979292782字节。
- 总大小: 40826165406.131996字节。
配置
- config_name: default
- data_files:
- train: 路径为
data/train-*。 - validation: 路径为
data/validation-*。 - test_bracarense: 路径为
data/test_bracarense-*。
- train: 路径为
- data_files:



