kuanhuggingface/promptTTS_speech_tokenizer

Name: kuanhuggingface/promptTTS_speech_tokenizer
Creator: kuanhuggingface
Published: 2023-11-16 12:20:59
License: 暂无描述

Hugging Face2023-11-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kuanhuggingface/promptTTS_speech_tokenizer

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: file_id dtype: string - name: instruction dtype: string - name: transcription dtype: string - name: src_speech_tokenizer_0 sequence: int64 - name: src_speech_tokenizer_1 sequence: int64 - name: src_speech_tokenizer_2 sequence: int64 - name: src_speech_tokenizer_3 sequence: int64 - name: src_speech_tokenizer_4 sequence: int64 - name: src_speech_tokenizer_5 sequence: int64 - name: src_speech_tokenizer_6 sequence: int64 - name: src_speech_tokenizer_7 sequence: int64 - name: tgt_speech_tokenizer_0 sequence: int64 - name: tgt_speech_tokenizer_1 sequence: int64 - name: tgt_speech_tokenizer_2 sequence: int64 - name: tgt_speech_tokenizer_3 sequence: int64 - name: tgt_speech_tokenizer_4 sequence: int64 - name: tgt_speech_tokenizer_5 sequence: int64 - name: tgt_speech_tokenizer_6 sequence: int64 - name: tgt_speech_tokenizer_7 sequence: int64 splits: - name: train num_bytes: 23208000922 num_examples: 550000 - name: validation num_bytes: 88919854 num_examples: 2516 - name: test num_bytes: 89144020 num_examples: 2516 download_size: 1020457470 dataset_size: 23386064796 --- # Dataset Card for "promptTTS_speech_tokenizer" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项： - 配置名称：default 数据文件： - 拆分集：训练集（train），路径：data/train-* - 拆分集：验证集（validation），路径：data/validation-* - 拆分集：测试集（test），路径：data/test-* 数据集信息：特征字段： - 字段名：file_id（文件标识符），数据类型：字符串（string） - 字段名：instruction（指令文本），数据类型：字符串（string） - 字段名：transcription（转录文本），数据类型：字符串（string） - 字段名：src_speech_tokenizer_0（源语音分词器序列0），数据类型：64位整数序列（sequence<int64>） - 字段名：src_speech_tokenizer_1（源语音分词器序列1），数据类型：64位整数序列（sequence<int64>） - 字段名：src_speech_tokenizer_2（源语音分词器序列2），数据类型：64位整数序列（sequence<int64>） - 字段名：src_speech_tokenizer_3（源语音分词器序列3），数据类型：64位整数序列（sequence<int64>） - 字段名：src_speech_tokenizer_4（源语音分词器序列4），数据类型：64位整数序列（sequence<int64>） - 字段名：src_speech_tokenizer_5（源语音分词器序列5），数据类型：64位整数序列（sequence<int64>） - 字段名：src_speech_tokenizer_6（源语音分词器序列6），数据类型：64位整数序列（sequence<int64>） - 字段名：src_speech_tokenizer_7（源语音分词器序列7），数据类型：64位整数序列（sequence<int64>） - 字段名：tgt_speech_tokenizer_0（目标语音分词器序列0），数据类型：64位整数序列（sequence<int64>） - 字段名：tgt_speech_tokenizer_1（目标语音分词器序列1），数据类型：64位整数序列（sequence<int64>） - 字段名：tgt_speech_tokenizer_2（目标语音分词器序列2），数据类型：64位整数序列（sequence<int64>） - 字段名：tgt_speech_tokenizer_3（目标语音分词器序列3），数据类型：64位整数序列（sequence<int64>） - 字段名：tgt_speech_tokenizer_4（目标语音分词器序列4），数据类型：64位整数序列（sequence<int64>） - 字段名：tgt_speech_tokenizer_5（目标语音分词器序列5），数据类型：64位整数序列（sequence<int64>） - 字段名：tgt_speech_tokenizer_6（目标语音分词器序列6），数据类型：64位整数序列（sequence<int64>） - 字段名：tgt_speech_tokenizer_7（目标语音分词器序列7），数据类型：64位整数序列（sequence<int64>）拆分集详情： - 拆分集名称：训练集，字节占用：23208000922，样本数量：550000 - 拆分集名称：验证集，字节占用：88919854，样本数量：2516 - 拆分集名称：测试集，字节占用：89144020，样本数量：2516 下载总大小：1020457470 数据集总存储大小：23386064796 --- # 「promptTTS_speech_tokenizer」数据集卡片 [更多信息待补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

kuanhuggingface

原始信息汇总

数据集概述

配置

默认配置：
- 数据文件：
  - 训练集：data/train-*
  - 验证集：data/validation-*
  - 测试集：data/test-*

数据集信息

特征：
- file_id：字符串类型
- instruction：字符串类型
- transcription：字符串类型
- src_speech_tokenizer_0 至 src_speech_tokenizer_7：整数序列类型
- tgt_speech_tokenizer_0 至 tgt_speech_tokenizer_7：整数序列类型
分割：
- 训练集：
  - 字节数：23,208,000,922
  - 样本数：550,000
- 验证集：
  - 字节数：88,919,854
  - 样本数：2,516
- 测试集：
  - 字节数：89,144,020
  - 样本数：2,516
下载大小：1,020,457,470 字节
数据集大小：23,386,064,796 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集