procit006/stt_dataset_v5
收藏Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/procit006/stt_dataset_v5
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本、音频、说话者ID和说话者姓名四个特征。数据集分为训练集、测试集和验证集三个部分,分别包含34925、11266和11252个样本。数据集的下载大小为1745701208字节,总大小为2022676496.535字节。
This dataset includes four features: text, audio, speaker ID, and speaker name. The dataset is divided into three parts: training set, test set, and validation set, containing 34925, 11266, and 11252 samples respectively. The download size of the dataset is 1745701208 bytes, and the total size is 2022676496.535 bytes.
提供机构:
procit006
原始信息汇总
数据集概述
数据特征
- text: 文本数据,数据类型为字符串。
- audio: 音频数据,数据类型为音频。
- speaker_id: 说话者ID,数据类型为字符串。
- speaker_name: 说话者名称,数据类型为字符串。
数据集划分
- train: 训练集,包含34925个样本,大小为1258094771.275字节。
- test: 测试集,包含11266个样本,大小为402632665.032字节。
- validation: 验证集,包含11252个样本,大小为361949060.228字节。
数据集大小
- 下载大小: 1745701208字节
- 数据集总大小: 2022676496.535字节
配置信息
- config_name: default
- data_files:
- train: data/train-*
- test: data/test-*
- validation: data/validation-*
- data_files:



