live-gurbani-captioning-benchmark-v1

github2026-04-23 更新2026-04-27 收录

下载链接：

https://github.com/karanbirsingh/live-gurbani-captioning-benchmark-v1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个小型/开放的基准数据集，旨在构建Gurbani Kirtan实时跟唱的端到端问题，并为初始实验提供具体的评分依据：给定一个音频流，生成一个因果时间线，指出每个时刻正在演唱的是哪个shabad的哪一行——类似于字幕，但输出仅限于Gurbani，而不是自由形式的转录。数据集包含4个经过手工审核的kirtan录音，每个录音从3个不同的起始偏移（0%、33%、66%）进行评估，总共12个评估案例，约57分钟的评分音频。

This is a small, open benchmark dataset designed to build end-to-end tasks for real-time sing-along of Gurbani Kirtan and provide specific scoring criteria for initial experiments. Given an audio stream, generate a causal timeline indicating which line of which shabad is being sung at each moment—similar to subtitles, but the output is limited exclusively to Gurbani rather than free-form transcription. The dataset comprises 4 manually vetted kirtan recordings, each evaluated from three different starting offsets (0%, 33%, 66%), totaling 12 evaluation cases with approximately 57 minutes of scored audio.

创建时间：

2026-04-21

原始信息汇总

数据集概述：Live Captioning for Gurbani Kirtan — Benchmark v1

任务目标

该基准测试旨在解决Gurbani Kirtan（锡克教圣歌）的实时字幕生成问题。给定一段Kirtan音频流，系统需要在每个时刻输出当前演唱的Shabad（圣诗）ID和行号（line_idx），或输出null（表示无演唱内容）。与自由形式的语音转录不同，输出被限制在Gurbani的规范文本范围内，避免拼写错误。

数据规模

4段经过人工审核的Kirtan录音，每段从3个不同的起始偏移量（0%、33%、66%）进行评估，共12个评估案例。
总计约57分钟的评分音频。

数据集详情

录音信息

视频ID	Shabad ID	时长	段落数
IZOsmkdmmcg	4377	7.7分钟	16
kZhIA8P6xWI	1821	5.1分钟	19
kchMJPK9Axs	1341	10.9分钟	22
zOtIpxMT9hU	3712	4.9分钟	10

冷启动变体

每个录音衍生出_cold33和_cold66两种变体，通过将评分区域（UEM）向前移动33%或66%来模拟中途加入场景。

数据格式

基础真值格式

每个案例对应一个JSON文件，文件名格式为{video_id}.json或{video_id}_cold{33|66}.json。

关键字段：

video_id：视频标识符
shabad_id：Shabad的唯一标识符（与BaniDB和SikhiToTheMax一致）
total_duration：音频总时长（秒）
uem：未分区评估映射，定义评分区域（start和end）
segments：标注的段落列表，每个段落包含start、end和line_idx（0索引）

提交格式

提交文件需与基础真值文件同名，放置在单个目录中。格式包含video_id和segments列表，其中line_idx为0索引，时间相对于音频文件起始点。

评估指标

评分方法

将时间离散化为1秒帧，仅对UEM内的帧评分。
采用帧准确率（Frame Accuracy）作为主要指标，设置1秒的collar（容差窗口）。

帧区域分类

区域	定义	可接受的预测
段落内部（Segment interior）	在标注段落内，且距离边界大于collar	仅精确的`line_idx`
边界区（Collar）	距离段落边界在collar秒内	精确行、相邻行或`null`
间隙区（Gap）	两个连续段落之间，且不在它们的collar内	间隙前的行、间隙后的行或`null`

基线结果

提交方案	描述	帧准确率
`baselines/empty/`	所有帧输出`null`	26.0%
`baselines/perfect/`	复制基础真值	100.0%

使用场景

该系统可应用于：

帮助Sangat成员在实时场景中识别当前Shabad并跟随
加速现有视频的事后字幕制作
对非结构化或存档的Kirtan录音进行自动索引

评估模式

盲测（Blind，主要模式）：系统仅从音频中识别Shabad
先知模式（Oracle，参考模式）：系统预先获知真实的shabad_id，仅跟踪行号

可视化工具

提供visualize.py脚本，可生成自包含的HTML文件，展示预测结果与真实值的对比，并支持通过悬停显示Gurmukhi原文。

局限性

仅包含4段人工审核的录音
目前仅处理简单场景，不包含中间讲解、Simran或Shabad间转换
每段音频仅包含一个Shabad

许可证

代码（eval.py、visualize.py、examples/）：MIT协议
标注数据（test/和baselines/）：CC BY 4.0协议

参考资源

规范文本来源：BaniDB和SikhiToTheMax
参考实现：bani.karanbirsingh.com

搜集汇总

数据集介绍

构建方式

本数据集聚焦于Gurbani Kirtan实时字幕生成这一端到端任务，精心挑选了四段经手动核验的YouTube基尔坦录音，每段录音分别从起始位置、33%及66%处截取三个起始偏移，形成总计12个评估案例，涵盖约57分钟的评分音频。数据标注采用BaniDB和SikhiToTheMax统一的shabad_id与line_idx标识系统，以JSON格式存储地面真值，明确每个片段的起止时间及对应诗行索引，确保与权威文本库无缝对接。

特点

该基准测试独树一帜地将输出空间限定为Gurbani标准文本，而非自由形式的转录，从根本上规避了拼写错误在宗教语境中的不可接受性。其评分机制引入1秒阈值和间隙容错策略，精准衡量实时字幕的帧级准确率。通过盲测与先知参照双轨设计，分别检验系统从音频独立识别圣诗及在已知圣诗下追踪诗行的能力，全面刻画算法性能边界。

使用方法

研究者首先利用yt-dlp与ffmpeg工具下载并预处理音频至16kHz单声道WAV格式。随后，系统需为每个案例输出包含预测片段起止时间与line_idx的JSON文件，置于统一目录。通过运行eval.py脚本并指定预测目录与地面真值目录及1秒阈值参数，即可获得帧准确率核心指标。可视化工具visualize.py能将预测结果渲染为交互式HTML页面，悬停时显示Gurmukhi原文，便于定性分析。

背景与挑战

背景概述

Gurbani Kirtan是锡克教传统中核心的 devotional 音乐实践，信徒在集会中通过聆听和跟唱圣诗来获得精神启迪。然而，现有的自动语音识别系统在处理 Gurbani 时往往产生拼写错误，这在宗教语境中被视为不可接受。为此，Karanbir Singh 等人于近期发布了 Live Gurbani Captioning Benchmark，该基准将 Gurbani Kirtan 的实时字幕生成任务正式化——要求系统从音频流中实时识别当前演唱的 Shabad（圣诗）及具体诗句行号，输出限定为 BaniDB 中规范 Gurmukhi 文本的索引而非自由转录。通过四段人工审校的录音（总计约 57 分钟）和从 0%、33%、66% 三个起始偏移量开始的评估设置，该基准为相关研究提供了可重复比较的标准化平台，有望推动信众在直播环境中实时跟唱、加速历史录音编目等应用。

当前挑战

该基准所应对的核心挑战在于如何为特定宗教语境下的现场唱诵提供高精度的字幕对齐服务。具体而言，首先面临的是领域问题挑战：Gurbani Kirtan 音频中的唱诵速度、旋律变化和停顿间隙与常规语音不同，且输出必须严格限制为规范 Gurmukhi 文本的索引，任何拼写错误都不可接受，因此系统需要在强语义约束下实现准确的声学建模与文本索引匹配。其次，构建过程中也遭遇多重困难：1) 高质量标注数据稀缺，仅依靠四段人工审校的 YouTube 录音，缺乏涵盖中间穿插 Katha、Simran 或多首 Shabad 转场的复杂样本；2) 评估方案需兼顾实时性与离线场景，且采用 1 秒紧致 collar 的帧准确率指标，对系统的时间边界预测提出了极高要求；3) 为保持基准的端到端通用性，任务设计刻意将 shabad_id 预测与 line_idx 追踪分离为盲测与 Oracle 两个子任务，增加了评估框架的复杂度。

常用场景

经典使用场景

在宗教语境下的实时字幕生成领域，该数据集专为Gurbani Kirtan的实时唱诵跟踪任务而设计，其核心应用场景为：给定一段连续的音频流，系统需在每一时刻输出当前所唱诵的Shabad的标识符及其行号。与传统语音识别不同，此任务将输出空间限定为预先规范化的圣典文本集合，而非自由形式的转录，从而确保了输出内容的宗教正确性。该基准涵盖4段经过人工审核的Kirtan录音，并引入3种不同的起始偏移量以模拟实时加入或冷启动场景，共构成12个评估实例，总计约57分钟的评分音频。

解决学术问题

该数据集针对性地解决了在宗教文化语境下，传统自动语音识别系统因拼写错误导致的不可接受输出问题，将任务重新定义为“吸附至规范文本”的逐行实时字幕生成。它设定了一个端到端的评估框架，以1秒分辨率的帧准确率为主要指标，并引入了一个1秒的容忍区间（collar）以平滑标签边界。这一设计摒弃了传统的词错误率指标，转而衡量系统在“正确时间点亮正确圣行”这一真实产品目标上的表现，为后续研究提供了清晰且可复现的评估标尺。

衍生相关工作

该基准的提出衍生了若干经典研究方向，包括但不限于：盲识别与Oracle识别的对比实验，前者要求系统仅从音频中自行识别Shabad，后者则提供已知Shabad ID以聚焦于行跟踪任务；基于本地小模型与云端大模型（如Google Chirp）的性价比与延迟权衡分析；以及时间对齐（collar）参数对评分敏感性的探讨。此外，其纯粹依赖整数标识符而非原始文本的提交格式，促使研究者探索声学建模、向量检索与解码策略的联合优化，为宗教文本自动处理领域树立了一个模型无关的测试基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集