Vedavani-Dataset
收藏Hugging Face2025-08-09 更新2025-08-10 收录
下载链接:
https://huggingface.co/datasets/sanganaka/Vedavani-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
Vedavani是一个针对吠陀梵语诗歌的自动语音识别(ASR)的基准数据集,包含来自《梨俱吠陀》和《阿闼婆吠陀》的丰富注释诗节,具有独特的韵律结构、语音复杂性和吟唱风格。
创建时间:
2025-08-09
原始信息汇总
Vedavani数据集概述
基本信息
- 数据集名称: Vedavani
- 任务类别: 自动语音识别(ASR)
- 语言: 梵语(sa)
- 许可证: Apache License 2.0
- 多语言性: 单语
- 标注来源: 专家生成
- 论文链接: https://arxiv.org/pdf/2506.00145v1
- GitHub仓库: https://github.com/SujeetNlp/Vedavani
数据集内容
- 音频格式: WAV
- 标注内容: 天城体梵文文本(包含韵律标记)
- 文件结构:
train.csv- 训练集元数据validation.csv- 验证集元数据test.csv- 测试集元数据Audio_files- 音频文件(分段对齐)README- 文档
数据统计
- 总时长: ~54小时
- 总样本数: 30,779
- 来自《梨俱吠陀》: 20,782
- 来自《阿闼婆吠陀》: 9,997
- 平均音频长度: 6.36秒
- 词汇量: 64,082个独特单词
数据划分
| 划分类型 | 样本数量 |
|---|---|
| 训练集 | 24,623 |
| 验证集 | 3,078 |
| 测试集 | 3,078 |
特征
- 音频特征: audio(音频)
- 文本特征: transcription(转写文本)
下载信息
- 下载大小: ~5.4GB
- 数据集大小: 未指定
应用场景
- ASR模型微调与基准测试
- 梵语诗歌的语音对齐研究
- 低资源语音处理
- 韵律感知语音模型
引用格式
bibtex @article{ title={Vedavani: A Benchmark Corpus for ASR on Vedic Sanskrit Poetry}, author={Sujeet Kumar, Pretam Ray, Abhinay Beerukuri, Shrey Kamoji, Manoj Balaji Jagadeeshan, and Pawan Goyal}, journal={https://arxiv.org/pdf/2506.00145v1}, year={2025} }
搜集汇总
数据集介绍

构建方式
Vedavani数据集作为首个吠陀梵语诗歌自动语音识别基准语料库,其构建过程体现了对古老语言传统的数字化保护。研究团队从《梨俱吠陀》和《阿闼婆吠陀》两部经典中精选24,623个训练样本和6,156个验证测试样本,通过专业诵经师的标准化吟诵录制,采用16kHz采样率的WAV格式保存音频。每个样本均配有包含韵律标记的天城体转写文本,由梵文学者逐句校验,确保文本与吟诵的精确对应。
特点
该数据集最显著的特点在于其完整保留了吠陀吟诵特有的三个韵律层次——音高变化、音节时长和停顿模式。54小时的音频素材涵盖64,082个独特词汇,平均样本时长6.36秒,既满足深度学习模型的输入需求,又完整呈现吠陀诗歌的韵律单元。不同于现代语言数据集,其转写文本特别标注了连音规则和语调符号,为研究古印度语音学提供了珍贵素材。
使用方法
使用该数据集时需注意其低资源语言特性,建议采用迁移学习策略。音频文件按每文件夹不超过9000个的规则存储,使用前需统一归置。数据集已预分割为训练、验证和测试集,可直接加载CSV元数据文件进行模型训练。针对吠陀语音特点,推荐优先微调Whisper等支持长时上下文建模的架构,并配合韵律标记进行多任务学习。
背景与挑战
背景概述
Vedavani数据集作为首个专注于吠陀梵语诗歌的自动语音识别(ASR)基准语料库,由Sujeet Kumar等学者于2025年构建,收录了《梨俱吠陀》与《阿闼婆吠陀》中富含韵律标记的诵经音频。该数据集由印度学术团队开发,旨在解决古印度文献数字化中的语音技术瓶颈,其54小时的高质量标注音频不仅填补了低资源语言在韵律感知ASR研究中的空白,更因其独特的音系复杂性(如音高变化、连诵规则)成为计算语言学与古典文献学的交叉研究平台。
当前挑战
该数据集面临双重挑战:在学术层面,吠陀梵语特有的抑扬格律、复合词连音现象及诵经中的非线性音高变化,对传统ASR模型的音素对齐与韵律建模提出极高要求;在构建层面,需克服古文献誊本稀缺、专业诵经者数量有限等困难,通过多阶段专家校验确保转写文本中保留重音符号(svara)等关键语言学特征。此外,5.4GB音频数据的时域对齐与方言变体归一化处理,亦成为技术实现的重要难点。
常用场景
经典使用场景
在梵语语音识别研究领域,Vedavani数据集作为首个吠陀梵语诗歌的基准语料库,其经典使用场景主要集中在自动语音识别(ASR)模型的微调与性能评估。该数据集通过捕捉《梨俱吠陀》和《阿闼婆吠陀》中独特的韵律结构和吟诵风格,为研究者提供了丰富的语音-文本对齐样本,特别适用于探索低资源语言环境下Whisper、Wav2Vec2等模型的适应性表现。
衍生相关工作
该数据集的发布催生了一系列创新研究,包括结合韵律标记的混合神经网络ASR架构、基于迁移学习的低资源语音识别框架IndicWhisper等。在2025年ACL会议上,相关衍生工作进一步拓展至吠陀韵律的声学建模、多模态古籍数字化方法等领域,形成了完整的梵语计算语言学研发生态。
数据集最近研究
最新研究方向
随着低资源语言处理技术的快速发展,Vedavani数据集作为首个吠陀梵语诗歌自动语音识别基准库,正推动该领域多项前沿研究。在语音技术层面,学者们聚焦于如何利用Whisper等预训练模型解决吠陀梵语特有的韵律结构和吟诵风格带来的识别挑战,特别是处理复杂音素组合与抑扬顿挫的声学特征。该数据集的出现恰逢全球数字人文研究热潮,其包含的《梨俱吠陀》和《阿闼婆吠陀》经文为计算语言学与古代文献学的跨学科研究提供了珍贵素材。当前研究热点包括开发能同时处理语音识别与韵律标注的端到端模型,以及探索小样本学习在濒危语言保护中的应用。这些工作不仅对保存印度文化遗产具有深远意义,也为低资源语言的语音技术发展提供了重要参照。
以上内容由遇见数据集搜集并总结生成



