five

surindersinghssj/gurbani-kirtan-dataset-v2

收藏
Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/surindersinghssj/gurbani-kirtan-dataset-v2
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - pa - en license: cc-by-4.0 task_categories: - automatic-speech-recognition - audio-classification tags: - gurbani - kirtan - sikh - punjabi - gurmukhi - speech - music - whisper size_categories: - 1K<n<10K --- # Gurbani Kirtan Dataset V2 A timestamped Gurbani Kirtan dataset with line-level audio segments, canonical Gurmukhi text (matched against SikhiToTheMax database), and English translations extracted from YouTube kirtan videos. ## Dataset Description Each row represents a single Gurbani line (slide) from a kirtan video, with: - **Audio segment** (FLAC, 16kHz mono, one per slide/pangati) - **Gurmukhi text** — canonical text matched against STTM database - **Gurmukhi OCR** — raw OCR output for comparison - **English translation** — from Dr. Sant Singh Khalsa (via STTM) - **Slide image** — original text overlay from the video - **Kirtan style** — studio, gurdwara_live, akj, etc. ## Dataset Statistics | Metric | Value | |--------|-------| | Total segments | 9319 | | Total audio duration | 248775.4s (69.1h) | | Number of videos | 436 | | STTM matched | 9197/9319 (99%) | | Avg segment duration | 26.7s | | Audio format | FLAC, 16kHz, mono | | Languages | Punjabi (Gurmukhi), English | | Kirtan styles | studio | ## Splits | Split | Segments | Note | |-------|----------|------| | train | 8766 | 95% of videos | | validation | 227 | 2.5% of videos | | test | 326 | 2.5% of videos | Splits are by **video ID** (not segment) to prevent data leakage. ## Data Fields | Field | Type | Description | |-------|------|-------------| | `audio` | Audio | FLAC audio segment (16kHz mono) | | `gurmukhi_text` | string | Canonical Gurbani line (STTM-corrected, cleaned) | | `gurmukhi_ocr` | string | Raw OCR output from slide | | `gurmukhi_vishram` | string | Canonical text with vishram (pause) markers | | `english_translation` | string | English translation (Dr. Sant Singh Khalsa) | | `match_score` | float | STTM fuzzy match confidence (0-100) | | `start_time` | float | Start time in source video (seconds) | | `end_time` | float | End time in source video (seconds) | | `duration` | float | Duration of audio segment (seconds) | | `slide_index` | int | Index of the slide in the video | | `video_id` | string | YouTube video ID | | `shabad_title` | string | Title of the shabad | | `channel` | string | YouTube channel name | | `kirtan_style` | string | Style: studio, gurdwara_live, akj, rain_sabai | | `segment_type` | string | Audio type: vocal, instrumental, or silent | | `vocal_ratio` | float | Fraction of frames with vocal characteristics | ## How to Use ```python from datasets import load_dataset ds = load_dataset("surindersinghssj/gurbani-kirtan-dataset-v2") # Access splits train = ds["train"] val = ds["validation"] test = ds["test"] # Filter high-confidence matches only high_quality = train.filter(lambda x: x["match_score"] >= 80) ``` ## Pipeline 1. **Download** kirtan videos from YouTube using `yt-dlp` 2. **Detect slide transitions** using OpenCV frame differencing (auto-threshold: median + 4*std) 3. **Extract audio segments** between transitions using `ffmpeg` (FLAC 16kHz mono) 4. **OCR slide text** using Surya OCR (with Tesseract fallback) 5. **Match against STTM** database (141K lines) for canonical Gurmukhi + English translations 6. **Clean text** — remove verse markers (॥), digits, ਰਹਾਉ; filter empty rows 7. **Assign train/val/test** splits by video ID (95/2.5/2.5) ## Source Videos sourced from YouTube kirtan channels that display each Gurbani line as a slide synchronized to the audio. ## License CC-BY-4.0. Please credit the original kirtan artists and channels. ## Citation ```bibtex @dataset{gurbani_kirtan_v2, title={Gurbani Kirtan Dataset V2}, author={Surinder Singh}, year={2026}, url={https://huggingface.co/datasets/surindersinghssj/gurbani-kirtan-dataset-v2} } ```

语言: - 旁遮普语(pa) - 英语(en) 许可协议:CC-BY-4.0 任务类别: - 自动语音识别 - 音频分类 标签: - 古尔巴尼(Gurbani) - 基尔坦(Kirtan) - 锡克教(Sikh) - 旁遮普语(Punjabi) - 果鲁穆奇文(Gurmukhi) - 语音 - 音乐 - Whisper 样本规模区间:1K<n<10K # 古尔巴尼基尔坦数据集V2(Gurbani Kirtan Dataset V2) 本数据集为带时间戳的古尔巴尼基尔坦数据集,包含逐行音频片段、与SikhiToTheMax(以下简称STTM)数据库匹配的标准果鲁穆奇文文本,以及从YouTube基尔坦视频中提取的英文译文。 ## 数据集概述 数据集中每一行对应基尔坦视频中的单条古尔巴尼经文(幻灯片),包含以下内容: - **音频片段**:采用FLAC格式、16kHz单声道,每张幻灯片/帕加蒂(pangati)对应一段音频片段 - **果鲁穆奇文文本**:与STTM数据库匹配的标准经文文本 - **果鲁穆奇文OCR结果**:用于对比的原始OCR输出 - **英文译文**:由Sant Singh Khalsa博士提供(通过STTM数据库获取) - **幻灯片图像**:视频中原有的经文叠加图像 - **基尔坦风格**:包括录音室版、古德瓦拉现场版、AKJ等类型 ## 数据集统计 | 指标 | 数值 | |--------|-------| | 总片段数 | 9319 | | 总音频时长 | 248775.4秒(约69.1小时) | | 视频总数 | 436 | | STTM匹配数 | 9197/9319(占比99%) | | 平均片段时长 | 26.7秒 | | 音频格式 | FLAC、16kHz单声道 | | 支持语言 | 旁遮普语(果鲁穆奇文)、英语 | | 基尔坦风格 | 录音室版 | ## 数据集拆分 | 拆分集 | 片段数 | 说明 | |-------|----------|------| | 训练集 | 8766 | 占总视频数的95% | | 验证集 | 227 | 占总视频数的2.5% | | 测试集 | 326 | 占总视频数的2.5% | 拆分按照**视频ID**(而非片段)进行,以避免数据泄露。 ## 数据字段 | 字段名 | 数据类型 | 字段说明 | |-------|------|-------------| | `audio` | 音频 | FLAC格式的音频片段(16kHz单声道) | | `gurmukhi_text` | 字符串 | 经STTM校正并清洗后的标准古尔巴尼经文行 | | `gurmukhi_ocr` | 字符串 | 从幻灯片中提取的原始OCR文本 | | `gurmukhi_vishram` | 字符串 | 带有停顿标记(vishram)的标准经文文本 | | `english_translation` | 字符串 | Sant Singh Khalsa博士提供的英文译文 | | `match_score` | 浮点数 | STTM模糊匹配置信度(取值范围0-100) | | `start_time` | 浮点数 | 源视频中的片段起始时间(单位:秒) | | `end_time` | 浮点数 | 源视频中的片段结束时间(单位:秒) | | `duration` | 浮点数 | 音频片段时长(单位:秒) | | `slide_index` | 整数 | 视频内幻灯片的索引 | | `video_id` | 字符串 | YouTube视频ID | | `shabad_title` | 字符串 | 圣典颂歌(shabad)标题 | | `channel` | 字符串 | YouTube频道名称 | | `kirtan_style` | 字符串 | 基尔坦风格:录音室版、古德瓦拉现场版、AKJ、rain_sabai等 | | `segment_type` | 字符串 | 音频类型:人声、器乐或无声 | | `vocal_ratio` | 浮点数 | 带有人声特征的帧占总帧数的比例 | ## 使用方法 python from datasets import load_dataset ds = load_dataset("surindersinghssj/gurbani-kirtan-dataset-v2") # 访问拆分集 train = ds["train"] val = ds["validation"] test = ds["test"] # 仅筛选高置信度匹配的样本 high_quality = train.filter(lambda x: x["match_score"] >= 80) ## 数据处理流程 1. **下载视频**:使用`yt-dlp`工具从YouTube下载基尔坦视频 2. **幻灯片过渡检测**:采用OpenCV帧差法(自动阈值:中位数 + 4倍标准差)识别幻灯片切换点 3. **音频片段提取**:使用`ffmpeg`提取切换点之间的音频片段(格式为FLAC、16kHz单声道) 4. **幻灯片文本OCR**:采用Surya OCR工具(Tesseract作为备选方案)进行OCR识别 5. **STTM数据库匹配**:与拥有14.1万条数据的STTM数据库进行匹配,获取标准果鲁穆奇文文本及英文译文 6. **文本清洗**:移除经文标记(॥)、数字及“ਰਹਾਉ”(停顿提示词),过滤空行 7. **数据集拆分**:按照视频ID将数据集划分为训练集、验证集、测试集,比例为95:2.5:2.5 ## 数据来源 本数据集的视频均来自YouTube基尔坦频道,这些频道会将每条古尔巴尼经文以幻灯片形式呈现,并与音频同步。 ## 许可协议 采用CC-BY-4.0许可协议。请注明原基尔坦艺术家及上传频道的署名。 ## 引用格式 bibtex @dataset{gurbani_kirtan_v2, title={Gurbani Kirtan Dataset V2}, author={Surinder Singh}, year={2026}, url={https://huggingface.co/datasets/surindersinghssj/gurbani-kirtan-dataset-v2} }
提供机构:
surindersinghssj
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作