kuanhuggingface/GPTspeech_encodec_v2_subset
收藏Hugging Face2024-01-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kuanhuggingface/GPTspeech_encodec_v2_subset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个音频处理相关的特征,如file_id、instruction、transcription以及多个src_encodec和tgt_encodec序列。数据集被分为训练、验证和测试集,分别用于模型训练、验证和测试。具体应用场景或数据集目的未在README中明确说明。
该数据集包含多个音频处理相关的特征,如file_id、instruction、transcription以及多个src_encodec和tgt_encodec序列。数据集被分为训练、验证和测试集,分别用于模型训练、验证和测试。具体应用场景或数据集目的未在README中明确说明。
提供机构:
kuanhuggingface
原始信息汇总
数据集概述
特征信息
数据集包含以下特征:
- file_id: 数据类型为字符串。
- instruction: 数据类型为字符串。
- transcription: 数据类型为字符串。
- src_encodec_0 至 src_encodec_7: 数据类型为整数序列。
- tgt_encodec_0 至 tgt_encodec_7: 数据类型为整数序列。
数据分割
数据集分为以下几个部分:
- train: 包含328242个样本,总字节数为11776844857。
- validation: 包含5029个样本,总字节数为177612370。
- test: 包含4826个样本,总字节数为166783731。
数据大小
- 下载大小: 968974622字节。
- 数据集大小: 12121240958字节。
配置信息
- config_name: default
- data_files:
- train: 路径为
data/train-* - validation: 路径为
data/validation-* - test: 路径为
data/test-*
- train: 路径为
- data_files:



