bridgeconn/snow-mountain
收藏Snow Mountain 数据集概述
数据集描述
数据集摘要
Snow Mountain 数据集包含11种印度语言的《圣经》(包括旧约和新约)的音频录音(.mp3格式)及其对应文本。录音由母语者在录音室环境中完成,每种语言仅有一位发言人。这些语言主要集中在印度北部喜马偕尔邦周围,与印地语相关,使用梵文脚本进行转录。
支持的任务和排行榜
该数据集可用于自动语音识别、语音转文本、说话人识别和语言识别等任务。
语言
数据集包含以下语言:印地语、哈里亚纳语、比拉斯普里语、多格里语、巴德拉瓦希语、加迪语、康格里语、库尔维语、曼德阿里语、库尔维外塞拉吉语、帕哈里·马哈苏伊语、马拉雅拉姆语、卡纳达语、泰米尔语、泰卢固语。
数据集结构
数据实例
每个数据点包含音频文件的路径(path)及其转录文本(sentence)。
数据字段
path:音频文件的路径audio:包含下载的音频文件路径、解码的音频数组和采样率的字典sentence:音频文件的转录文本
数据分割
数据集包含训练和验证分割,文件名指示实验和分割类别。此外,还包括两个CSV文件:all_verses 和 short_verses。short_verses.csv 包含长度小于10秒的音频及其对应转录文本,all_verses.csv 包含所有清理过的诗句,包括长音频和短音频。
数据集加载
原始音频文件以.mp3格式存储在raw文件夹中,实验所需的.wav格式音频文件存储在cleaned文件夹中。加载数据集的估计时间如下:
- 印地语(旧约书):约20分钟
- 印地语少数民族语言(新约书):约9分钟
- 达罗毗荼语(旧约+新约书):约30分钟
详细信息
更多关于数据集创建和分割的详细信息,请参阅相关论文。
许可信息
数据集根据知识共享署名-相同方式共享4.0国际公共许可证(CC BY-SA 4.0)进行许可。
引用信息
如使用该数据集,请引用以下信息:
@inproceedings{Raju2022SnowMD, title={Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages}, author={Kavitha Raju and V. Anjaly and R. Allen Lish and Joel Mathew}, year={2022} }



