alvanlii/cantonese-youtube-transcription-diarized-max
收藏Hugging Face2024-06-15 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/alvanlii/cantonese-youtube-transcription-diarized-max
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频数据及其相关标签信息。音频数据的采样率为16000Hz,其他特征包括标签1(字符串类型)、频道(字符串类型)、标题(字符串类型)和长度(int64类型)。数据集分为一个训练集,包含1,490,540个样本,总大小为185,428,634,976字节。下载大小为185,134,950,155字节。
This dataset contains audio data and related label information. The audio data has a sampling rate of 16000Hz, and other features include labels_1 (string type), channel (string type), title (string type), and length (int64 type). The dataset is divided into one training set, containing 1,490,540 samples, with a total size of 185,428,634,976 bytes. The download size is 185,134,950,155 bytes.
提供机构:
alvanlii
原始信息汇总
数据集概述
数据特征
- audio:
- 采样率: 16000
- labels_1:
- 数据类型: 字符串
- channel:
- 数据类型: 字符串
- title:
- 数据类型: 字符串
- length:
- 数据类型: 整数 (int64)
数据分割
- train:
- 字节数: 185428634976.0
- 样本数: 1490540
数据集大小
- 下载大小: 185134950155
- 数据集大小: 185428634976.0
配置
- default:
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:



