pourmand1376/asr-farsi-youtube-chunked-30-seconds

Name: pourmand1376/asr-farsi-youtube-chunked-30-seconds
Creator: pourmand1376
Published: 2024-03-07 09:33:17
License: 暂无描述

Hugging Face2024-03-07 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/pourmand1376/asr-farsi-youtube-chunked-30-seconds

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个波斯语自动语音识别（ASR）数据集，包含从YouTube视频中提取的30秒音频片段。数据集包含音频、视频ID、片段ID、标题、转录文本和YouTube链接等特征。数据集分为训练集、测试集和验证集，分别包含32746、4094和4093个样本。数据集的总下载大小为18614667732字节，总数据集大小为18756368103.82字节。该数据集是从Kaggle数据集生成的，包含超过300小时的ASR数据。

提供机构：

pourmand1376

原始信息汇总

数据集概述

基本信息

语言: 波斯语 (fa)
许可证: Apache 2.0
数据集大小: 10K<n<100K
任务类别: 自动语音识别 (automatic-speech-recognition)
数据集名称: Persian ASR Youtube (30 Second Chunk)

数据集特征

音频: 音频数据
视频ID: 字符串
片段ID: 整数 (int64)
标题: 字符串
转录文本: 字符串
YouTube链接: 字符串

数据集分割

训练集: 32746个样本, 15011333947.12248字节
测试集: 4094个样本, 1868480465.95316字节
验证集: 4093个样本, 1876553690.74436字节

数据集大小

下载大小: 18614667732字节
数据集大小: 18756368103.82字节

配置

默认配置:
- 训练集: data/train-*
- 测试集: data/test-*
- 验证集: data/val-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集