procit006/stt_dataset_v2
收藏Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/procit006/stt_dataset_v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本、音频路径和说话者ID三个主要特征。数据集被分为训练集、测试集和验证集,分别包含34933、11266和11252个示例。总下载大小为6614044字节,数据集总大小为29142580字节。数据文件路径配置为:训练集路径为data/train-*,测试集路径为data/test-*,验证集路径为data/validation-*。
This dataset includes three main features: text, audio path, and speaker ID. The dataset is divided into training, test, and validation sets, containing 34933, 11266, and 11252 examples respectively. The total download size is 6614044 bytes, and the total dataset size is 29142580 bytes. The data file paths are configured as: training set path is data/train-*, test set path is data/test-*, and validation set path is data/validation-*.
提供机构:
procit006
原始信息汇总
数据集概述
特征
- text: 文本数据,数据类型为字符串。
- audio_path: 音频文件路径,数据类型为字符串。
- speaker_id: 说话者ID,数据类型为字符串。
数据集划分
- train: 训练集,包含34933个样本,占用20467182字节。
- test: 测试集,包含11266个样本,占用4324620字节。
- validation: 验证集,包含11252个样本,占用4350778字节。
数据集大小
- 下载大小: 6614044字节。
- 总大小: 29142580字节。
配置
- config_name: default
- data_files:
- train: data/train-*
- test: data/test-*
- validation: data/validation-*
- data_files:
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



