Vedavani-Dataset

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/sanganaka/Vedavani-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Vedavani是一个针对吠陀梵语诗歌的自动语音识别（ASR）的基准数据集，包含来自《梨俱吠陀》和《阿闼婆吠陀》的丰富注释诗节，具有独特的韵律结构、语音复杂性和吟唱风格。

创建时间：

2025-08-09

原始信息汇总

Vedavani数据集概述

基本信息

数据集名称: Vedavani
任务类别: 自动语音识别(ASR)
语言: 梵语(sa)
许可证: Apache License 2.0
多语言性: 单语
标注来源: 专家生成
论文链接: https://arxiv.org/pdf/2506.00145v1
GitHub仓库: https://github.com/SujeetNlp/Vedavani

数据集内容

音频格式: WAV
标注内容: 天城体梵文文本(包含韵律标记)
文件结构:
- train.csv - 训练集元数据
- validation.csv - 验证集元数据
- test.csv - 测试集元数据
- Audio_files - 音频文件(分段对齐)
- README - 文档

数据统计

总时长: ~54小时
总样本数: 30,779
- 来自《梨俱吠陀》: 20,782
- 来自《阿闼婆吠陀》: 9,997
平均音频长度: 6.36秒
词汇量: 64,082个独特单词

数据划分

划分类型	样本数量
训练集	24,623
验证集	3,078
测试集	3,078

特征

音频特征: audio(音频)
文本特征: transcription(转写文本)

下载信息

下载大小: ~5.4GB
数据集大小: 未指定

应用场景

ASR模型微调与基准测试
梵语诗歌的语音对齐研究
低资源语音处理
韵律感知语音模型

引用格式

bibtex @article{ title={Vedavani: A Benchmark Corpus for ASR on Vedic Sanskrit Poetry}, author={Sujeet Kumar, Pretam Ray, Abhinay Beerukuri, Shrey Kamoji, Manoj Balaji Jagadeeshan, and Pawan Goyal}, journal={https://arxiv.org/pdf/2506.00145v1}, year={2025} }

搜集汇总

数据集介绍

构建方式

Vedavani数据集作为首个吠陀梵语诗歌自动语音识别基准语料库，其构建过程体现了对古老语言传统的数字化保护。研究团队从《梨俱吠陀》和《阿闼婆吠陀》两部经典中精选24,623个训练样本和6,156个验证测试样本，通过专业诵经师的标准化吟诵录制，采用16kHz采样率的WAV格式保存音频。每个样本均配有包含韵律标记的天城体转写文本，由梵文学者逐句校验，确保文本与吟诵的精确对应。

特点

该数据集最显著的特点在于其完整保留了吠陀吟诵特有的三个韵律层次——音高变化、音节时长和停顿模式。54小时的音频素材涵盖64,082个独特词汇，平均样本时长6.36秒，既满足深度学习模型的输入需求，又完整呈现吠陀诗歌的韵律单元。不同于现代语言数据集，其转写文本特别标注了连音规则和语调符号，为研究古印度语音学提供了珍贵素材。

使用方法

使用该数据集时需注意其低资源语言特性，建议采用迁移学习策略。音频文件按每文件夹不超过9000个的规则存储，使用前需统一归置。数据集已预分割为训练、验证和测试集，可直接加载CSV元数据文件进行模型训练。针对吠陀语音特点，推荐优先微调Whisper等支持长时上下文建模的架构，并配合韵律标记进行多任务学习。

背景与挑战

背景概述

Vedavani数据集作为首个专注于吠陀梵语诗歌的自动语音识别（ASR）基准语料库，由Sujeet Kumar等学者于2025年构建，收录了《梨俱吠陀》与《阿闼婆吠陀》中富含韵律标记的诵经音频。该数据集由印度学术团队开发，旨在解决古印度文献数字化中的语音技术瓶颈，其54小时的高质量标注音频不仅填补了低资源语言在韵律感知ASR研究中的空白，更因其独特的音系复杂性（如音高变化、连诵规则）成为计算语言学与古典文献学的交叉研究平台。

当前挑战

该数据集面临双重挑战：在学术层面，吠陀梵语特有的抑扬格律、复合词连音现象及诵经中的非线性音高变化，对传统ASR模型的音素对齐与韵律建模提出极高要求；在构建层面，需克服古文献誊本稀缺、专业诵经者数量有限等困难，通过多阶段专家校验确保转写文本中保留重音符号（svara）等关键语言学特征。此外，5.4GB音频数据的时域对齐与方言变体归一化处理，亦成为技术实现的重要难点。

常用场景

经典使用场景

在梵语语音识别研究领域，Vedavani数据集作为首个吠陀梵语诗歌的基准语料库，其经典使用场景主要集中在自动语音识别（ASR）模型的微调与性能评估。该数据集通过捕捉《梨俱吠陀》和《阿闼婆吠陀》中独特的韵律结构和吟诵风格，为研究者提供了丰富的语音-文本对齐样本，特别适用于探索低资源语言环境下Whisper、Wav2Vec2等模型的适应性表现。

衍生相关工作

该数据集的发布催生了一系列创新研究，包括结合韵律标记的混合神经网络ASR架构、基于迁移学习的低资源语音识别框架IndicWhisper等。在2025年ACL会议上，相关衍生工作进一步拓展至吠陀韵律的声学建模、多模态古籍数字化方法等领域，形成了完整的梵语计算语言学研发生态。

数据集最近研究