surindersinghssj/gurbani-kirtan-dataset-v2
收藏Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/surindersinghssj/gurbani-kirtan-dataset-v2
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- pa
- en
license: cc-by-4.0
task_categories:
- automatic-speech-recognition
- audio-classification
tags:
- gurbani
- kirtan
- sikh
- punjabi
- gurmukhi
- speech
- music
- whisper
size_categories:
- 1K<n<10K
---
# Gurbani Kirtan Dataset V2
A timestamped Gurbani Kirtan dataset with line-level audio segments, canonical Gurmukhi text
(matched against SikhiToTheMax database), and English translations extracted from YouTube kirtan videos.
## Dataset Description
Each row represents a single Gurbani line (slide) from a kirtan video, with:
- **Audio segment** (FLAC, 16kHz mono, one per slide/pangati)
- **Gurmukhi text** — canonical text matched against STTM database
- **Gurmukhi OCR** — raw OCR output for comparison
- **English translation** — from Dr. Sant Singh Khalsa (via STTM)
- **Slide image** — original text overlay from the video
- **Kirtan style** — studio, gurdwara_live, akj, etc.
## Dataset Statistics
| Metric | Value |
|--------|-------|
| Total segments | 9319 |
| Total audio duration | 248775.4s (69.1h) |
| Number of videos | 436 |
| STTM matched | 9197/9319 (99%) |
| Avg segment duration | 26.7s |
| Audio format | FLAC, 16kHz, mono |
| Languages | Punjabi (Gurmukhi), English |
| Kirtan styles | studio |
## Splits
| Split | Segments | Note |
|-------|----------|------|
| train | 8766 | 95% of videos |
| validation | 227 | 2.5% of videos |
| test | 326 | 2.5% of videos |
Splits are by **video ID** (not segment) to prevent data leakage.
## Data Fields
| Field | Type | Description |
|-------|------|-------------|
| `audio` | Audio | FLAC audio segment (16kHz mono) |
| `gurmukhi_text` | string | Canonical Gurbani line (STTM-corrected, cleaned) |
| `gurmukhi_ocr` | string | Raw OCR output from slide |
| `gurmukhi_vishram` | string | Canonical text with vishram (pause) markers |
| `english_translation` | string | English translation (Dr. Sant Singh Khalsa) |
| `match_score` | float | STTM fuzzy match confidence (0-100) |
| `start_time` | float | Start time in source video (seconds) |
| `end_time` | float | End time in source video (seconds) |
| `duration` | float | Duration of audio segment (seconds) |
| `slide_index` | int | Index of the slide in the video |
| `video_id` | string | YouTube video ID |
| `shabad_title` | string | Title of the shabad |
| `channel` | string | YouTube channel name |
| `kirtan_style` | string | Style: studio, gurdwara_live, akj, rain_sabai |
| `segment_type` | string | Audio type: vocal, instrumental, or silent |
| `vocal_ratio` | float | Fraction of frames with vocal characteristics |
## How to Use
```python
from datasets import load_dataset
ds = load_dataset("surindersinghssj/gurbani-kirtan-dataset-v2")
# Access splits
train = ds["train"]
val = ds["validation"]
test = ds["test"]
# Filter high-confidence matches only
high_quality = train.filter(lambda x: x["match_score"] >= 80)
```
## Pipeline
1. **Download** kirtan videos from YouTube using `yt-dlp`
2. **Detect slide transitions** using OpenCV frame differencing (auto-threshold: median + 4*std)
3. **Extract audio segments** between transitions using `ffmpeg` (FLAC 16kHz mono)
4. **OCR slide text** using Surya OCR (with Tesseract fallback)
5. **Match against STTM** database (141K lines) for canonical Gurmukhi + English translations
6. **Clean text** — remove verse markers (॥), digits, ਰਹਾਉ; filter empty rows
7. **Assign train/val/test** splits by video ID (95/2.5/2.5)
## Source
Videos sourced from YouTube kirtan channels that display each Gurbani line
as a slide synchronized to the audio.
## License
CC-BY-4.0. Please credit the original kirtan artists and channels.
## Citation
```bibtex
@dataset{gurbani_kirtan_v2,
title={Gurbani Kirtan Dataset V2},
author={Surinder Singh},
year={2026},
url={https://huggingface.co/datasets/surindersinghssj/gurbani-kirtan-dataset-v2}
}
```
语言:
- 旁遮普语(pa)
- 英语(en)
许可协议:CC-BY-4.0
任务类别:
- 自动语音识别
- 音频分类
标签:
- 古尔巴尼(Gurbani)
- 基尔坦(Kirtan)
- 锡克教(Sikh)
- 旁遮普语(Punjabi)
- 果鲁穆奇文(Gurmukhi)
- 语音
- 音乐
- Whisper
样本规模区间:1K<n<10K
# 古尔巴尼基尔坦数据集V2(Gurbani Kirtan Dataset V2)
本数据集为带时间戳的古尔巴尼基尔坦数据集,包含逐行音频片段、与SikhiToTheMax(以下简称STTM)数据库匹配的标准果鲁穆奇文文本,以及从YouTube基尔坦视频中提取的英文译文。
## 数据集概述
数据集中每一行对应基尔坦视频中的单条古尔巴尼经文(幻灯片),包含以下内容:
- **音频片段**:采用FLAC格式、16kHz单声道,每张幻灯片/帕加蒂(pangati)对应一段音频片段
- **果鲁穆奇文文本**:与STTM数据库匹配的标准经文文本
- **果鲁穆奇文OCR结果**:用于对比的原始OCR输出
- **英文译文**:由Sant Singh Khalsa博士提供(通过STTM数据库获取)
- **幻灯片图像**:视频中原有的经文叠加图像
- **基尔坦风格**:包括录音室版、古德瓦拉现场版、AKJ等类型
## 数据集统计
| 指标 | 数值 |
|--------|-------|
| 总片段数 | 9319 |
| 总音频时长 | 248775.4秒(约69.1小时) |
| 视频总数 | 436 |
| STTM匹配数 | 9197/9319(占比99%) |
| 平均片段时长 | 26.7秒 |
| 音频格式 | FLAC、16kHz单声道 |
| 支持语言 | 旁遮普语(果鲁穆奇文)、英语 |
| 基尔坦风格 | 录音室版 |
## 数据集拆分
| 拆分集 | 片段数 | 说明 |
|-------|----------|------|
| 训练集 | 8766 | 占总视频数的95% |
| 验证集 | 227 | 占总视频数的2.5% |
| 测试集 | 326 | 占总视频数的2.5% |
拆分按照**视频ID**(而非片段)进行,以避免数据泄露。
## 数据字段
| 字段名 | 数据类型 | 字段说明 |
|-------|------|-------------|
| `audio` | 音频 | FLAC格式的音频片段(16kHz单声道) |
| `gurmukhi_text` | 字符串 | 经STTM校正并清洗后的标准古尔巴尼经文行 |
| `gurmukhi_ocr` | 字符串 | 从幻灯片中提取的原始OCR文本 |
| `gurmukhi_vishram` | 字符串 | 带有停顿标记(vishram)的标准经文文本 |
| `english_translation` | 字符串 | Sant Singh Khalsa博士提供的英文译文 |
| `match_score` | 浮点数 | STTM模糊匹配置信度(取值范围0-100) |
| `start_time` | 浮点数 | 源视频中的片段起始时间(单位:秒) |
| `end_time` | 浮点数 | 源视频中的片段结束时间(单位:秒) |
| `duration` | 浮点数 | 音频片段时长(单位:秒) |
| `slide_index` | 整数 | 视频内幻灯片的索引 |
| `video_id` | 字符串 | YouTube视频ID |
| `shabad_title` | 字符串 | 圣典颂歌(shabad)标题 |
| `channel` | 字符串 | YouTube频道名称 |
| `kirtan_style` | 字符串 | 基尔坦风格:录音室版、古德瓦拉现场版、AKJ、rain_sabai等 |
| `segment_type` | 字符串 | 音频类型:人声、器乐或无声 |
| `vocal_ratio` | 浮点数 | 带有人声特征的帧占总帧数的比例 |
## 使用方法
python
from datasets import load_dataset
ds = load_dataset("surindersinghssj/gurbani-kirtan-dataset-v2")
# 访问拆分集
train = ds["train"]
val = ds["validation"]
test = ds["test"]
# 仅筛选高置信度匹配的样本
high_quality = train.filter(lambda x: x["match_score"] >= 80)
## 数据处理流程
1. **下载视频**:使用`yt-dlp`工具从YouTube下载基尔坦视频
2. **幻灯片过渡检测**:采用OpenCV帧差法(自动阈值:中位数 + 4倍标准差)识别幻灯片切换点
3. **音频片段提取**:使用`ffmpeg`提取切换点之间的音频片段(格式为FLAC、16kHz单声道)
4. **幻灯片文本OCR**:采用Surya OCR工具(Tesseract作为备选方案)进行OCR识别
5. **STTM数据库匹配**:与拥有14.1万条数据的STTM数据库进行匹配,获取标准果鲁穆奇文文本及英文译文
6. **文本清洗**:移除经文标记(॥)、数字及“ਰਹਾਉ”(停顿提示词),过滤空行
7. **数据集拆分**:按照视频ID将数据集划分为训练集、验证集、测试集,比例为95:2.5:2.5
## 数据来源
本数据集的视频均来自YouTube基尔坦频道,这些频道会将每条古尔巴尼经文以幻灯片形式呈现,并与音频同步。
## 许可协议
采用CC-BY-4.0许可协议。请注明原基尔坦艺术家及上传频道的署名。
## 引用格式
bibtex
@dataset{gurbani_kirtan_v2,
title={Gurbani Kirtan Dataset V2},
author={Surinder Singh},
year={2026},
url={https://huggingface.co/datasets/surindersinghssj/gurbani-kirtan-dataset-v2}
}
提供机构:
surindersinghssj



