procit006/stt_dataset_v5.3.1
收藏Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/procit006/stt_dataset_v5.3.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本、音频、说话者ID和说话者名称等字段。数据集被分为训练集、测试集和验证集,分别包含34925、11266和11252个样本。数据集的下载大小为1745816716字节,总大小为2024284144.535字节。
This dataset includes fields such as text, audio, speaker ID, and speaker name. The dataset is divided into training, test, and validation sets, containing 34925, 11266, and 11252 samples respectively. The download size of the dataset is 1745816716 bytes, and the total size is 2024284144.535 bytes.
提供机构:
procit006
原始信息汇总
数据集概述
特征信息
- text: 文本数据,数据类型为字符串。
- audio: 音频数据,采样率为48000。
- speaker_id: 说话者ID,数据类型为字符串。
- speaker_name: 说话者姓名,数据类型为字符串。
数据集划分
- train: 训练集,包含34925个样本,大小为1259071915.275字节。
- test: 测试集,包含11266个样本,大小为402948113.032字节。
- validation: 验证集,包含11252个样本,大小为362264116.228字节。
数据集大小
- 下载大小: 1745816716字节
- 数据集总大小: 2024284144.535字节
配置信息
- config_name: default
- data_files:
- train: 路径为
data/train-* - test: 路径为
data/test-* - validation: 路径为
data/validation-*
- train: 路径为
- data_files:



