surindersinghssj/gurbani-asr-v2-dataset

Name: surindersinghssj/gurbani-asr-v2-dataset
Creator: surindersinghssj
Published: 2026-03-25 08:42:04
License: 暂无描述

Hugging Face2026-03-25 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/surindersinghssj/gurbani-asr-v2-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: audio dtype: audio - name: segment_id dtype: string - name: recording_id dtype: string - name: start dtype: float32 - name: end dtype: float32 - name: duration dtype: float32 - name: canonical_transcription dtype: string - name: teacher_text dtype: string - name: training_label dtype: string - name: label_source dtype: string - name: match_score dtype: float32 - name: skeleton_score dtype: float32 - name: quality_score dtype: float32 - name: decision dtype: string - name: ang dtype: int32 - name: style_bucket dtype: string - name: artist_name dtype: string - name: source_url dtype: string configs: - config_name: default data_files: - split: train path: data/train-*.parquet license: cc-by-nc-sa-4.0 task_categories: - automatic-speech-recognition language: - pa --- # Gurbani ASR v2 Dataset Speech recognition dataset for Gurbani (Sikh scriptures) in Gurmukhi script. - **Audio**: 16 kHz mono FLAC segments (5-30 seconds) - **Transcriptions**: Matched against SGGS, Dasam Granth, Bhai Gurdas Vaaran, Kabit Savaiye, Bhai Nand Lal Ji corpus

数据集信息：特征： - 名称：audio（音频），数据类型：音频 - 名称：segment_id（片段ID），数据类型：字符串 - 名称：recording_id（录音ID），数据类型：字符串 - 名称：start，数据类型：float32（单精度浮点数） - 名称：end，数据类型：float32（单精度浮点数） - 名称：duration（时长），数据类型：float32（单精度浮点数） - 名称：canonical_transcription（标准转写文本），数据类型：字符串 - 名称：teacher_text（教师标注文本），数据类型：字符串 - 名称：training_label（训练标签），数据类型：字符串 - 名称：label_source（标签来源），数据类型：字符串 - 名称：match_score（匹配得分），数据类型：float32（单精度浮点数） - 名称：skeleton_score（骨架得分），数据类型：float32（单精度浮点数） - 名称：quality_score（质量得分），数据类型：float32（单精度浮点数） - 名称：decision（判定结果），数据类型：字符串 - 名称：ang，数据类型：int32（32位整数） - 名称：style_bucket（风格分桶），数据类型：字符串 - 名称：artist_name（演唱者名称），数据类型：字符串 - 名称：source_url（来源URL），数据类型：字符串配置项： - 配置名称：默认（default）数据文件： - 拆分方式：训练集（train）路径：data/train-*.parquet 许可证：cc-by-nc-sa-4.0（知识共享署名-非商业性使用-相同方式共享4.0协议）任务类别： - 自动语音识别（automatic-speech-recognition）语言： - 旁遮普语（pa） # 古尔巴尼自动语音识别v2数据集（Gurbani ASR v2 Dataset）本数据集为基于古木基文（Gurmukhi script）书写的古尔巴尼（锡克教经典）语音识别数据集。 - **音频**：16 kHz单声道FLAC格式音频片段（时长5至30秒） - **转写文本**：匹配自SGGS、Dasam Granth、Bhai Gurdas Vaaran、Kabit Savaiye、Bhai Nand Lal Ji语料库

提供机构：

surindersinghssj

5,000+

优质数据集

54 个

任务类型

进入经典数据集