surindersinghssj/gurbani-kirtan-dataset-v2

Name: surindersinghssj/gurbani-kirtan-dataset-v2
Creator: surindersinghssj
Published: 2026-04-08 16:12:55
License: 暂无描述

Hugging Face2026-04-08 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/surindersinghssj/gurbani-kirtan-dataset-v2

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - pa - en license: cc-by-4.0 task_categories: - automatic-speech-recognition - audio-classification tags: - gurbani - kirtan - sikh - punjabi - gurmukhi - speech - music - whisper size_categories: - 1K<n<10K --- # Gurbani Kirtan Dataset V2 A timestamped Gurbani Kirtan dataset with line-level audio segments, canonical Gurmukhi text (matched against SikhiToTheMax database), and English translations extracted from YouTube kirtan videos. ## Dataset Description Each row represents a single Gurbani line (slide) from a kirtan video, with: - **Audio segment** (FLAC, 16kHz mono, one per slide/pangati) - **Gurmukhi text** — canonical text matched against STTM database - **Gurmukhi OCR** — raw OCR output for comparison - **English translation** — from Dr. Sant Singh Khalsa (via STTM) - **Slide image** — original text overlay from the video - **Kirtan style** — studio, gurdwara_live, akj, etc. ## Dataset Statistics | Metric | Value | |--------|-------| | Total segments | 9319 | | Total audio duration | 248775.4s (69.1h) | | Number of videos | 436 | | STTM matched | 9197/9319 (99%) | | Avg segment duration | 26.7s | | Audio format | FLAC, 16kHz, mono | | Languages | Punjabi (Gurmukhi), English | | Kirtan styles | studio | ## Splits | Split | Segments | Note | |-------|----------|------| | train | 8766 | 95% of videos | | validation | 227 | 2.5% of videos | | test | 326 | 2.5% of videos | Splits are by **video ID** (not segment) to prevent data leakage. ## Data Fields | Field | Type | Description | |-------|------|-------------| | `audio` | Audio | FLAC audio segment (16kHz mono) | | `gurmukhi_text` | string | Canonical Gurbani line (STTM-corrected, cleaned) | | `gurmukhi_ocr` | string | Raw OCR output from slide | | `gurmukhi_vishram` | string | Canonical text with vishram (pause) markers | | `english_translation` | string | English translation (Dr. Sant Singh Khalsa) | | `match_score` | float | STTM fuzzy match confidence (0-100) | | `start_time` | float | Start time in source video (seconds) | | `end_time` | float | End time in source video (seconds) | | `duration` | float | Duration of audio segment (seconds) | | `slide_index` | int | Index of the slide in the video | | `video_id` | string | YouTube video ID | | `shabad_title` | string | Title of the shabad | | `channel` | string | YouTube channel name | | `kirtan_style` | string | Style: studio, gurdwara_live, akj, rain_sabai | | `segment_type` | string | Audio type: vocal, instrumental, or silent | | `vocal_ratio` | float | Fraction of frames with vocal characteristics | ## How to Use ```python from datasets import load_dataset ds = load_dataset("surindersinghssj/gurbani-kirtan-dataset-v2") # Access splits train = ds["train"] val = ds["validation"] test = ds["test"] # Filter high-confidence matches only high_quality = train.filter(lambda x: x["match_score"] >= 80) ``` ## Pipeline 1. **Download** kirtan videos from YouTube using `yt-dlp` 2. **Detect slide transitions** using OpenCV frame differencing (auto-threshold: median + 4*std) 3. **Extract audio segments** between transitions using `ffmpeg` (FLAC 16kHz mono) 4. **OCR slide text** using Surya OCR (with Tesseract fallback) 5. **Match against STTM** database (141K lines) for canonical Gurmukhi + English translations 6. **Clean text** — remove verse markers (॥), digits, ਰਹਾਉ; filter empty rows 7. **Assign train/val/test** splits by video ID (95/2.5/2.5) ## Source Videos sourced from YouTube kirtan channels that display each Gurbani line as a slide synchronized to the audio. ## License CC-BY-4.0. Please credit the original kirtan artists and channels. ## Citation ```bibtex @dataset{gurbani_kirtan_v2, title={Gurbani Kirtan Dataset V2}, author={Surinder Singh}, year={2026}, url={https://huggingface.co/datasets/surindersinghssj/gurbani-kirtan-dataset-v2} } ```

语言： - 旁遮普语（pa） - 英语（en）许可协议：CC-BY-4.0 任务类别： - 自动语音识别 - 音频分类标签： - 古尔巴尼（Gurbani） - 基尔坦（Kirtan） - 锡克教（Sikh） - 旁遮普语（Punjabi） - 果鲁穆奇文（Gurmukhi） - 语音 - 音乐 - Whisper 样本规模区间：1K<n<10K # 古尔巴尼基尔坦数据集V2（Gurbani Kirtan Dataset V2）本数据集为带时间戳的古尔巴尼基尔坦数据集，包含逐行音频片段、与SikhiToTheMax（以下简称STTM）数据库匹配的标准果鲁穆奇文文本，以及从YouTube基尔坦视频中提取的英文译文。 ## 数据集概述数据集中每一行对应基尔坦视频中的单条古尔巴尼经文（幻灯片），包含以下内容： - **音频片段**：采用FLAC格式、16kHz单声道，每张幻灯片/帕加蒂（pangati）对应一段音频片段 - **果鲁穆奇文文本**：与STTM数据库匹配的标准经文文本 - **果鲁穆奇文OCR结果**：用于对比的原始OCR输出 - **英文译文**：由Sant Singh Khalsa博士提供（通过STTM数据库获取） - **幻灯片图像**：视频中原有的经文叠加图像 - **基尔坦风格**：包括录音室版、古德瓦拉现场版、AKJ等类型 ## 数据集统计 | 指标 | 数值 | |--------|-------| | 总片段数 | 9319 | | 总音频时长 | 248775.4秒（约69.1小时） | | 视频总数 | 436 | | STTM匹配数 | 9197/9319（占比99%） | | 平均片段时长 | 26.7秒 | | 音频格式 | FLAC、16kHz单声道 | | 支持语言 | 旁遮普语（果鲁穆奇文）、英语 | | 基尔坦风格 | 录音室版 | ## 数据集拆分 | 拆分集 | 片段数 | 说明 | |-------|----------|------| | 训练集 | 8766 | 占总视频数的95% | | 验证集 | 227 | 占总视频数的2.5% | | 测试集 | 326 | 占总视频数的2.5% | 拆分按照**视频ID**（而非片段）进行，以避免数据泄露。 ## 数据字段 | 字段名 | 数据类型 | 字段说明 | |-------|------|-------------| | `audio` | 音频 | FLAC格式的音频片段（16kHz单声道） | | `gurmukhi_text` | 字符串 | 经STTM校正并清洗后的标准古尔巴尼经文行 | | `gurmukhi_ocr` | 字符串 | 从幻灯片中提取的原始OCR文本 | | `gurmukhi_vishram` | 字符串 | 带有停顿标记（vishram）的标准经文文本 | | `english_translation` | 字符串 | Sant Singh Khalsa博士提供的英文译文 | | `match_score` | 浮点数 | STTM模糊匹配置信度（取值范围0-100） | | `start_time` | 浮点数 | 源视频中的片段起始时间（单位：秒） | | `end_time` | 浮点数 | 源视频中的片段结束时间（单位：秒） | | `duration` | 浮点数 | 音频片段时长（单位：秒） | | `slide_index` | 整数 | 视频内幻灯片的索引 | | `video_id` | 字符串 | YouTube视频ID | | `shabad_title` | 字符串 | 圣典颂歌（shabad）标题 | | `channel` | 字符串 | YouTube频道名称 | | `kirtan_style` | 字符串 | 基尔坦风格：录音室版、古德瓦拉现场版、AKJ、rain_sabai等 | | `segment_type` | 字符串 | 音频类型：人声、器乐或无声 | | `vocal_ratio` | 浮点数 | 带有人声特征的帧占总帧数的比例 | ## 使用方法 python from datasets import load_dataset ds = load_dataset("surindersinghssj/gurbani-kirtan-dataset-v2") # 访问拆分集 train = ds["train"] val = ds["validation"] test = ds["test"] # 仅筛选高置信度匹配的样本 high_quality = train.filter(lambda x: x["match_score"] >= 80) ## 数据处理流程 1. **下载视频**：使用`yt-dlp`工具从YouTube下载基尔坦视频 2. **幻灯片过渡检测**：采用OpenCV帧差法（自动阈值：中位数 + 4倍标准差）识别幻灯片切换点 3. **音频片段提取**：使用`ffmpeg`提取切换点之间的音频片段（格式为FLAC、16kHz单声道） 4. **幻灯片文本OCR**：采用Surya OCR工具（Tesseract作为备选方案）进行OCR识别 5. **STTM数据库匹配**：与拥有14.1万条数据的STTM数据库进行匹配，获取标准果鲁穆奇文文本及英文译文 6. **文本清洗**：移除经文标记（॥）、数字及“ਰਹਾਉ”（停顿提示词），过滤空行 7. **数据集拆分**：按照视频ID将数据集划分为训练集、验证集、测试集，比例为95:2.5:2.5 ## 数据来源本数据集的视频均来自YouTube基尔坦频道，这些频道会将每条古尔巴尼经文以幻灯片形式呈现，并与音频同步。 ## 许可协议采用CC-BY-4.0许可协议。请注明原基尔坦艺术家及上传频道的署名。 ## 引用格式 bibtex @dataset{gurbani_kirtan_v2, title={Gurbani Kirtan Dataset V2}, author={Surinder Singh}, year={2026}, url={https://huggingface.co/datasets/surindersinghssj/gurbani-kirtan-dataset-v2} }

提供机构：

surindersinghssj

5,000+

优质数据集

54 个

任务类型

进入经典数据集