sgpc-amritsar-kirtan-live
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/surindersinghssj/sgpc-amritsar-kirtan-live
下载链接
链接失效反馈官方服务:
资源简介:
SGPC Amritsar Live Kirtan 数据集是一个包含现场 Gurbani Kirtan 音频的数据集,源自 Sachkhand Sri Harmandir Sahib(金庙,阿姆利则),通过 SGPC 官方 YouTube 频道获取。每条数据包含一段不超过30秒的音频片段及其对应的旁遮普语(Gurmukhi 文字)字幕文本。数据集包含625,792个音频片段,总计804.1小时的音频,源自241个视频。音频格式为FLAC,16kHz,单声道。数据集按视频ID划分训练、验证和测试集,以避免数据泄露。数据字段包括音频、Gurmukhi文本、起止时间、持续时间、视频ID、视频标题和频道名称。适用于自动语音识别等任务,遵循CC-BY-4.0许可。
The SGPC Amritsar Live Kirtan Dataset is an audio dataset focused on live Gurbani Kirtan recordings, sourced from Sachkhand Sri Harmandir Sahib (the Golden Temple, Amritsar) and obtained via the official YouTube channel of SGPC. Each sample in the dataset contains an audio clip no longer than 30 seconds, paired with its corresponding Punjabi subtitle text written in Gurmukhi script. The dataset includes 625,792 audio clips, totaling 804.1 hours of audio content derived from 241 source videos. All audio files are formatted as FLAC, with a sampling rate of 16kHz and single-channel (mono) audio. To avoid data leakage, the dataset is split into training, validation, and test sets by video ID. The available data fields include audio data, Gurmukhi text, start and end timestamps, clip duration, video ID, video title, and channel name. This dataset is suitable for tasks such as automatic speech recognition (ASR), and is released under the CC-BY-4.0 license.
创建时间:
2026-04-11
搜集汇总
数据集介绍

构建方式
在宗教音乐与语音识别交叉领域,SGPC Amritsar Live Kirtan数据集的构建体现了对传统锡克教圣乐的系统化数字保存。该数据集源自SGPC官方YouTube频道发布的现场吉尔坦(Kirtan)录音,通过自动化流程采集:首先利用yt-dlp工具提取纯音频流,同步下载平台自动生成的旁遮普语字幕文件;随后解析字幕时间戳,过滤标注为乐器演奏的片段,并筛选古木基文字符占比超过50%的文本内容;最终将连续字幕按时间窗重组为不超过30秒的音频片段,统一转换为16kHz单声道FLAC格式,确保音质与文本对齐的精确性。
特点
该数据集的核心特征在于其高度专业化的宗教音乐属性与多模态对齐结构。作为目前规模最大的旁遮普语吉尔坦现场录音资料库,它收录了来自金庙的144,067个音频片段,总时长超过188小时,所有文本均以古木基文书写。数据集采用视频ID层级划分策略,有效避免了跨视频片段的数据泄露风险。每个样本包含精确的时间戳标注、视频元信息及经过清洗的歌词文本,特别排除了纯器乐段落,专注于人声诵唱部分,为低资源语言的语音模型训练提供了珍贵的韵律学特征与宗教语义语境。
使用方法
在应用层面,该数据集主要服务于旁遮普语自动语音识别系统的开发与优化。研究者可通过Hugging Face数据集库直接加载,利用其预置的音频-文本对齐结构进行端到端模型训练。由于数据已统一采样率并附带精确的时间边界标注,可直接用于训练基于Transformer的语音识别架构,或作为跨语言预训练任务的补充语料。在宗教计算语言学领域,该数据集还可用于分析吉尔坦音乐的韵律模式、古木基文方言变体研究,以及构建面向文化遗产保护的智能诵唱辅助系统。
背景与挑战
背景概述
在自动语音识别领域,低资源语言的语音数据稀缺问题长期制约着相关技术的发展。SGPC Amritsar Live Kirtan 数据集由研究者 Surinder Singh 于2026年创建,旨在为旁遮普语(古木基文)的语音识别研究提供高质量资源。该数据集源自锡克教圣地金庙的官方YouTube频道,收录了现场吉尔坦(宗教吟唱)的音频片段及其对应的自动生成字幕。其核心研究问题聚焦于如何利用网络公开的宗教仪式音频,构建大规模、对齐精准的语音-文本对,以推动旁遮普语语音技术的进步,并对文化遗产的数字化保存与传播产生深远影响。
当前挑战
该数据集致力于解决旁遮普语自动语音识别任务中的核心挑战,即缺乏大规模、高质量且领域特定的标注语音数据。在构建过程中,研究者面临多重技术难题:首先,原始音频来源于现场录制,背景中存在复杂的音乐伴奏和混响,需精确过滤纯器乐片段以确保语音清晰度;其次,依赖YouTube自动生成的字幕存在转录错误与对齐偏差,需通过古木基文字符比例阈值进行筛选与校正;此外,为确保模型泛化能力,需设计基于视频ID的数据划分策略,严格防止跨视频的信息泄露,这增加了数据工程流程的复杂性。
常用场景
经典使用场景
在旁遮普语语音识别研究领域,sgpc-amritsar-kirtan-live数据集为构建和评估自动语音识别模型提供了关键资源。该数据集收录了来自斯里哈曼迪尔萨希卜(金庙)的现场吉尔坦音频,每条数据包含不超过30秒的音频片段及其对应的古木基文本文本。研究者可利用这一对齐的音频-文本对,训练端到端的语音识别系统,专门针对旁遮普语这一资源相对稀缺的语言,尤其在宗教音乐这一特定领域,其独特的发音、韵律和词汇为模型带来了宝贵的领域适应性挑战。
衍生相关工作
围绕此数据集,已衍生出若干经典研究工作。一方面,研究者利用其训练了专门针对旁遮普语吉尔坦语音的端到端ASR模型,这些模型在领域内测试集上展现了优越性能。另一方面,该数据集常被用作预训练或微调的基础,以提升通用旁遮普语语音识别模型在宗教和文化语境下的表现。此外,相关研究也探索了如何利用此类数据改进多模态理解,例如结合音频与文本进行情感分析或内容摘要,进一步拓展了其在计算人文领域的应用边界。
数据集最近研究
最新研究方向
在语音识别与文化遗产数字化领域,SGPC Amritsar Live Kirtan数据集为旁遮普语(古木基文)的自动语音识别研究提供了珍贵资源。该数据集源自金庙现场吟唱的吉尔坦音频,其前沿探索聚焦于低资源语言模型的跨领域应用,尤其在宗教音乐与口语混合场景下的端到端识别系统构建。近期研究热点围绕多模态学习展开,结合音频与文本对齐技术,旨在提升在复杂声学环境中的转录准确性,同时推动锡克教文化遗产的智能保存与传播。这一工作不仅促进了语言技术的包容性发展,也为全球非物质文化遗产的数字化存档设立了技术范式。
以上内容由遇见数据集搜集并总结生成



