Vedavani

Name: Vedavani
Creator: 印度理工学院，加尔各答分校
Published: 2025-05-31 02:36:54
License: 暂无描述

arXiv2025-05-31 更新2025-06-05 收录

下载链接：

https://github.com/SujeetNlp/Vedavani

下载链接

链接失效反馈

官方服务：

资源简介：

Vedavani是一个用于梵文吠陀诗歌自动语音识别（ASR）的基准语料库。该数据集由来自《梨俱吠陀》和《阿闼婆吠陀》的30,779个标记音频样本组成，总时长为54小时。这个数据集捕捉了梵文独特的音调和节奏特征，为研究和开发梵文诗歌的ASR系统提供了宝贵资源。数据集的创建涉及从维基百科获取文本资源，从互联网档案馆获取音频转录，并手动对齐文本和音频数据。Vedavani数据集旨在解决梵文诗歌的自动语音识别问题，为研究梵文语言提供了新的视角和方法。

Vedavani is a benchmark corpus for automatic speech recognition (ASR) of Sanskrit Vedic poetry. This dataset consists of 30,779 labeled audio samples sourced from the Rigveda and Atharvaveda, with a total duration of 54 hours. It captures the unique tonal and rhythmic characteristics of Sanskrit, serving as a valuable resource for research and development of ASR systems targeting Sanskrit poetry. The creation of the Vedavani dataset involved acquiring text resources from Wikipedia, obtaining audio transcriptions from the Internet Archive, and manually aligning the text and audio data. The Vedavani dataset aims to address the automatic speech recognition task for Sanskrit poetry, providing new perspectives and methodologies for research on the Sanskrit language.

提供机构：

印度理工学院，加尔各答分校

创建时间：

2025-05-31

原始信息汇总

数据集概述

基本信息

数据集名称：Vedavani
托管平台：GitHub
托管地址：https://github.com/SujeetNlp/Vedavani

当前状态

数据集尚未公开
代码和数据集即将发布

备注

无其他可用信息

搜集汇总

数据集介绍

构建方式

Vedavani数据集的构建过程体现了对梵语诗歌独特韵律和音韵特征的深度关注。研究团队从维基百科和互联网档案馆获取了《梨俱吠陀》与《阿闼婆吠陀》的文本及诵读音频，通过精细的手工对齐流程，将54小时的原始音频分割为30,779个标注样本。针对梵语连音变读(sandhi)现象带来的对齐挑战，团队采用参数调整与人工校验相结合的方式，确保每个音频片段与对应经文严格同步，最终形成包含80%训练集、10%验证集和10%测试集的标准化语料库。

特点

该数据集的核心价值在于其专业化的诗歌语音表征，完整保留了吠陀梵语特有的韵律模式(如三音步Gayatri韵律)和复杂连音现象。统计显示音频平均时长6.36秒，句子平均含46个字符，词汇表覆盖64,082个独特单词，最长单词达59字符，充分展现梵语高度屈折特性。与现有梵语ASR数据集相比，Vedavani首次系统收录了公元前15世纪至20世纪的古老诗体文献，其音韵复杂度远超散文体语料。

使用方法

研究者推荐采用多阶段建模策略处理该数据集：首先利用IndicWhisper等预训练模型进行迁移学习，再结合KenLM语言模型处理梵语特有的连音现象。实验表明，当使用天城体脚本时，Whisper-Large模型取得20.71%的词错误率(WER)，优于国际梵语转写字母(IAST)的26.05%。对于专业研究，建议重点关注语音-文本对齐层，通过分析表7中的六类音韵错误（如清浊辅音混淆、鼻音替代等）优化模型音素识别能力。

背景与挑战

背景概述

Vedavani数据集由印度理工学院卡拉格普尔分校的研究团队于近期创建，旨在填补梵语自动语音识别（ASR）领域在诗歌处理方面的研究空白。该数据集专注于吠陀梵语诗歌，包含来自《梨俱吠陀》和《阿闼婆吠陀》的54小时音频数据，共计30,779个标注样本。梵语作为一种古老且高度屈折的语言，其诗歌形式具有复杂的韵律和节奏模式，这些特征对传统ASR系统构成了显著挑战。Vedavani的建立不仅推动了梵语语音技术的研究，也为保存和传播这一古老文化遗产提供了技术支持。

当前挑战

Vedavani数据集面临的核心挑战包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，梵语诗歌的复杂韵律模式、连音现象（Sandhi）以及词序的自由性对ASR系统提出了极高要求，现有模型在诗歌测试集上表现出高达99-110的单词错误率（WER）。在构建过程中，研究人员面临音频与文本对齐的困难，需手动调整分段参数并处理不一致的音频分割，同时还需解决吠陀吟诵特有的语调标记问题。这些挑战突显了开发专门针对梵语诗歌的ASR系统的必要性。

常用场景

经典使用场景

Vedavani数据集作为首个专注于梵语吠陀诗歌的自动语音识别（ASR）基准语料库，其经典使用场景主要集中在梵语韵律分析和语音模型训练领域。该数据集通过精确捕捉《梨俱吠陀》和《阿闼婆吠陀》中复杂的韵律模式、音素转换及连诵现象，为研究者提供了分析梵语诗歌独特音韵特征的实验平台。尤其在处理梵语连诵（Sandhi）规则和音调变化时，数据集内30,779个标注音频样本成为验证声学模型对古典韵律适应性的关键资源。

衍生相关工作

该数据集催生了多项梵语计算语言学创新研究：IndicWhisper通过在该语料上的微调，将梵语识别WER降低至23.14；SPRING-INX系列模型结合KenLM语言模型，显著改善了连诵规则的处理效果；后续工作进一步探索音调标记嵌入策略，以解决吠陀吟诵中标准调、高调、高低调等音高特征的识别难题。这些衍生研究共同推动了古语言计算处理的技术边界。

数据集最近研究