kotoba-speech/reazonspeech_v2_0_stage2_tokenized_trans-en-overfit

Name: kotoba-speech/reazonspeech_v2_0_stage2_tokenized_trans-en-overfit
Creator: kotoba-speech
Published: 2024-06-11 09:31:28
License: 暂无描述

Hugging Face2024-06-11 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/kotoba-speech/reazonspeech_v2_0_stage2_tokenized_trans-en-overfit

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: audio_tokens sequence: sequence: int64 - name: spk_embed sequence: float64 - name: text_tokens sequence: int64 - name: dataset_id dtype: string - name: key dtype: string - name: duration dtype: float64 - name: lang dtype: 'null' - name: ratio dtype: float64 - name: text_en_gpt3.5_tokens sequence: int64 - name: audio_tokens_bpe sequence: int64 splits: - name: train num_bytes: 28935000 num_examples: 1000 - name: val num_bytes: 57870 num_examples: 2 download_size: 849019 dataset_size: 28992870 configs: - config_name: default data_files: - split: train path: data/train-* - split: val path: data/val-* ---

提供机构：

kotoba-speech

原始信息汇总

数据集概述

数据集特征

audio_tokens: 序列类型，包含int64数据。
spk_embed: 序列类型，包含float64数据。
text_tokens: 序列类型，包含int64数据。
dataset_id: 字符串类型。
key: 字符串类型。
duration: float64类型。
lang: null类型。
ratio: float64类型。
text_en_gpt3.5_tokens: 序列类型，包含int64数据。
audio_tokens_bpe: 序列类型，包含int64数据。

数据集分割

train: 包含1000个样本，占用28935000字节。
val: 包含2个样本，占用57870字节。

数据集大小

下载大小: 849019字节。
总大小: 28992870字节。

配置

config_name: default
- data_files:
  - train: 路径为data/train-*。
  - val: 路径为data/val-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集