maxseats/aihub-464-preprocessed-680GB-set-1

Name: maxseats/aihub-464-preprocessed-680GB-set-1
Creator: maxseats
Published: 2024-06-14 11:10:17
License: 暂无描述

Hugging Face2024-06-14 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/maxseats/aihub-464-preprocessed-680GB-set-1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频文件和对应的转录文本，音频文件的采样率为16000Hz，转录文本为字符串类型。数据集被分为训练集、测试集和验证集，分别包含41688、5212和5211个样本。数据集的构建过程涉及音频文件的处理、文本的预处理、特征提取（如log-Mel spectrogram）以及标签的生成。最终，数据集被上传到HuggingFace Hub。

提供机构：

maxseats

原始信息汇总

数据集概述

数据集信息

特征

audio: 音频数据，采样率为16000Hz。
transcripts: 文本数据，数据类型为字符串。
input_features: 输入特征，序列类型为float32。
labels: 标签，序列类型为int64。

数据分割

train: 训练集，包含41688个样本，大小为48448179624.57247字节。
test: 测试集，包含5212个样本，大小为6057184614.355971字节。
valid: 验证集，包含5211个样本，大小为6056022453.071559字节。

数据集大小

下载大小: 21728147847字节。
数据集总大小: 60561386692.0字节。

配置

config_name: default
- data_files:
  - train: data/train-*
  - test: data/test-*
  - valid: data/valid-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集