litus-ai/common_voice_16_1_it_pseudo_labelled_whisper_large_v3

Name: litus-ai/common_voice_16_1_it_pseudo_labelled_whisper_large_v3
Creator: litus-ai
Published: 2024-04-24 15:12:56
License: 暂无描述

Hugging Face2024-04-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/litus-ai/common_voice_16_1_it_pseudo_labelled_whisper_large_v3

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: config_name: it features: - name: path dtype: string - name: audio dtype: audio: sampling_rate: 16000 - name: sentence dtype: string - name: condition_on_prev sequence: int64 - name: whisper_transcript dtype: string splits: - name: train num_bytes: 28440358252.524 num_examples: 32726 - name: validation num_bytes: 2898126599.38 num_examples: 3370 - name: test num_bytes: 3031446604.448 num_examples: 3552 download_size: 31933005803 dataset_size: 34369931456.352 configs: - config_name: it data_files: - split: train path: it/train-* - split: validation path: it/validation-* - split: test path: it/test-* ---

数据集信息：配置名称：it 特征字段： - 字段名：path（路径），数据类型：字符串 - 字段名：audio（音频），数据类型为音频数据，采样率为16000 赫兹 - 字段名：sentence（句子），数据类型：字符串 - 字段名：condition_on_prev（前置条件），数据类型为64位整数序列 - 字段名：Whisper转录文本（whisper_transcript），数据类型：字符串数据集划分： - 划分名称：训练集（train），总字节数：28440358252.524，样本数量：32726 - 划分名称：验证集（validation），总字节数：2898126599.38，样本数量：3370 - 划分名称：测试集（test），总字节数：3031446604.448，样本数量：3552 下载总大小：31933005803 字节数据集总大小：34369931456.352 字节配置项： - 配置名称：it 数据文件： - 数据集划分：训练集（train），文件路径：it/train-* - 数据集划分：验证集（validation），文件路径：it/validation-* - 数据集划分：测试集（test），文件路径：it/test-*

提供机构：

litus-ai

原始信息汇总

数据集概述

数据集配置

配置名称: it

数据集特征

path: 数据类型为字符串。
audio: 数据类型为音频，采样率为16000 Hz。
sentence: 数据类型为字符串。
condition_on_prev: 数据类型为整数序列。
whisper_transcript: 数据类型为字符串。

数据集分割

训练集: 包含32726个样本，数据大小为28440358252.524字节。
验证集: 包含3370个样本，数据大小为2898126599.38字节。
测试集: 包含3552个样本，数据大小为3031446604.448字节。

数据集大小

下载大小: 31933005803字节。
数据集总大小: 34369931456.352字节。

5,000+

优质数据集

54 个

任务类型

进入经典数据集