jan-hq/raw_audio_with_audio_tokens_for_pretraining

Name: jan-hq/raw_audio_with_audio_tokens_for_pretraining
Creator: jan-hq
Published: 2024-08-07 12:15:20
License: 暂无描述

Hugging Face2024-08-07 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/jan-hq/raw_audio_with_audio_tokens_for_pretraining

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个主要特征：索引（index，数据类型为int64）、序列（tokens，数据类型为int64）和文本（text，数据类型为string）。数据集分为一个训练集（train），包含2,420,047个样本，总大小为118,946,377,572字节。下载大小为22,843,414,992字节。数据集的配置为默认配置，数据文件路径为data/train-*。

The dataset contains three main features: index (data type: int64), tokens (sequence, data type: int64), and text (data type: string). The dataset is divided into one training set (train) containing 2,420,047 samples, with a total size of 118,946,377,572 bytes. The download size is 22,843,414,992 bytes. The dataset configuration is the default configuration, and the data file path is data/train-*.

提供机构：

jan-hq

5,000+

优质数据集

54 个

任务类型

进入经典数据集